Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

A Novel bayesiano Cambia punto di Algoritmo per Genome-wide analisi di diversi tipi di dati ChIPseq

Published: December 10, 2012 doi: 10.3791/4273

Summary

Il nostro punto di cambio Bayesiano (BCP) algoritmo si basa su state-of-the-art progressi nella modellizzazione del cambiamento-point tramite Hidden Markov Models e li applica alla cromatina immunoprecipitazione sequenziamento (ChIPseq) analisi dei dati. BCP si comporta bene in entrambi i tipi di dati ampi e puntata, ma si distingue per identificare con precisione robusti, isole riproducibili diffusa di arricchimento degli istoni.

Abstract

ChIPseq è una tecnica largamente usata per studiare interazioni proteina-DNA. Leggere i profili di densità vengono generati mediante sequenziamento di prossima legame proteico DNA e allineando il corto legge di un genoma di riferimento. Regioni arricchite sono rivelati come picchi, che spesso differiscono notevolmente per forma, a seconda della proteina bersaglio 1. Per esempio, fattori di trascrizione spesso legano in un sito di e-maniera sequenza-specifica e tendono a produrre picchi puntiformi, mentre modificazioni istoniche sono più diffusi e sono caratterizzati da grandi, isole diffuse di arricchimento 2. Affidabile individuare queste regioni è stato al centro del nostro lavoro.

Algoritmi per l'analisi dei dati ChIPseq hanno utilizzato diverse metodologie euristiche, da 3-5 a modelli più rigorosi statistici, ad esempio, modelli nascosti di Markov (HMM) 6-8. Abbiamo cercato una soluzione che ridurre al minimo la necessità di difficile da definire, parametri ad hoc che spessocompromettere la risoluzione e ridurre l'usabilità intuitiva dello strumento. Per quanto riguarda i metodi basati su HMM, abbiamo voluto limitare le procedure di stima dei parametri e semplici classificazioni a stati finiti, che sono spesso utilizzati.

Inoltre, convenzionale ChIPseq analisi dei dati comporta categorizzazione del previsto leggere i profili di densità sia come puntiforme o diffusa seguita da successiva applicazione dello strumento appropriato. Abbiamo inoltre diretta a sostituire la necessità di questi due modelli distinti con un unico modello più versatile, che può abilmente affrontare l'intero spettro di tipi di dati.

Per raggiungere questi obiettivi, abbiamo prima costruito un quadro statistico che naturalmente modellate ChIPseq strutture di dati utilizzando un progresso all'avanguardia in HMM 9, che utilizza solo le formule esplicite, un'innovazione fondamentale per i suoi vantaggi prestazionali. Modelli poi euristiche più sofisticate, il nostro HMM ospita infiniti stati nascosti attraverso unModello bayesiano. Abbiamo applicato per individuare i punti di cambio ragionevoli di densità leggere, che ha ulteriormente definire segmenti di arricchimento. La nostra analisi ha rivelato come il nostro Cambia bayesiano Point (BCP) algoritmo ha una complessità computazionale ridotto, evidenziato da un tempo di funzionamento e ridotta occupazione di memoria. L'algoritmo di BCP è stata applicata con successo a entrambi di punta puntata e identificazione isola diffusa con precisione robusto e limitati parametri definiti dall'utente. Questo illustrata sia la sua versatilità e facilità di utilizzo. Di conseguenza, riteniamo che possa essere implementato facilmente in un raggio di massima per i tipi di dati e degli utenti finali, in modo che può essere facilmente confrontati e contrapposti, che lo rende un ottimo strumento per l'analisi dei dati ChIPseq che possono aiutare nella collaborazione e conferma tra i gruppi di ricerca. Qui, dimostriamo l'applicazione di BCP per fattore di trascrizione esistente 10,11 e dati epigenetiche 12 a illustrare la sua utilità.

Protocol

1. Preparazione dei file di input per l'analisi BCP

  1. Allineare il breve legge prodotta da sequenziamento piste (ChIP e le librerie di ingresso) al genoma di riferimento appropriato utilizzando il software di allineamento preferito breve lettura. Le posizioni mappate devono essere convertiti ai 6 i dati del browser colonna estendibili (BED) in formato 13 (UCSC Genome Browser, http://genome.ucsc.edu/ ), delimitato da tabulazioni linea mappata per leggere che indica il cromosoma mappata, la posizione di partenza (0-based), posizione finale (semiaperta), leggere il nome, punteggio (opzionale), e la linea.

2a. Diffuse leggere i profili: ChIP preelaborazione Leggere la densità per il rilevamento di isole arricchito nei dati diffuse

  1. Estendere il chip e luoghi di input mappata a una lunghezza predeterminata frammento, vale a dire. la dimensione del frammento di mira durante la digestione enzimatica o sonicazione del DNA, solitamente circa 200 bp. Frammento conta sono poi aggregazioneTED nella bidoni adiacenti. Per impostazione predefinita, la dimensione bin è impostata la lunghezza del frammento stimato di 200 bp.
  2. Ogni eventuale cambiamento punti in un insieme di classi con lo stesso conta di lettura sarà più probabile cadere ai confini più esterni. Pertanto, è improbabile che un punto di cambiamento si verifica a un confine interno tra due bidoni con i conteggi di lettura stessi. Quindi, bidoni gruppo adiacente, con identica legge per scomparto, in un unico blocco, ovvero. bedGraph formato 13.

2b. Profili Leggi puntata: ChIP preelaborazione e file LETTO ingresso per il rilevamento di picchi nei dati puntiformi

  1. Aggregato sovrapposizione legge per ChIP filone più e meno si legge a parte. Le densità componente specifica lettura dovrebbe formare un profilo bimodale di picchi positivi e negativi. Scegli coppie più / meno dei picchi più arricchito e utilizzare la distanza tra le loro cime a fronte della stima per la lunghezza del frammento biblioteca.
  2. Spostare il chip e di ingresso indica la metà del frammento length al centro e ricalcolare la densità di lettura del più spostato e unito e meno filo legge. Questa metodologia di stima della lunghezza del frammento è stata adottata da Zhang et al. 3. Posizioni con identici conta di unione devono essere raggruppati in blocchi, simili al punto 2a.2.

3. Stimare il posteriore significano densità di ciascun blocco utilizzando il nostro ravvicinamento BCMIX

  1. La densità di lettura di ogni blocco è modellato come una distribuzione di Poisson, Pois t), con un parametro media dopo un miscuglio di distribuzioni gamma, Γ (α, β), e una probabilità a priori di un punto di cambiamento che avviene in ogni fine blocco di p. condizionata Pois t) su G (α, β) rende efficacemente il modello di un HMM stato infinito. Stimare l'iper-parametri, α, β, e p, con massima verosimiglianza posteriore.
  2. Esplicitamente calcolare le stime di Bayesogni blocco, θ t, come E (θ t | γ Z). Sostituire il consumo più tradizionale ma il tempo in avanti e indietro i filtri spesso utilizzati in HMM, con l'approssimazione complessità computazionalmente più efficiente delimitata miscela di stimare mezzi posteriori, θ c. I mezzi risultanti posteriori sarà "livellato" in un approssimativo profilo costante a tratti in modo blocchi con identica, θ c, dovrebbero essere ulteriormente bloccato con contorno aggiornato coordinate.

4a. Diffuse Leggi Profili: Post-processo significa posteriori in segmenti di arricchimento Diffuse

  1. Utilizzare il numero di ingresso indica per ogni nuovo blocco θ c come il tasso di base, Pois (λ a) e determinare l'arricchimento con un semplice test ipotesi a seconda che la media ChIP posteriore, θ c, supera un certo δ soglia. Il 90 ° </ Sup>-quantile è il d di default ed è adatta nella maggior parte dei casi.
  2. Unisci adiacente θ c blocchi che superano l'arricchimento in un'unica regione e la relazione unire le coordinate in formato LETTO semplice. In alternativa, si può segnalare la c θ per ogni blocco in formato bedGraph per preservare i dati ad alta risoluzione delle stime di densità di lettura.

4b. Puntata Leggi Profili: Post-processo significa posteriori in candidati di punta

  1. Definire il tasso di base, Pois (λ a), come la media di tutti i conteggi letti (γ 2) e identificare tutti i blocchi che superano la soglia, d. Dal momento che i picchi puntiformi dovrebbero essere sostanzialmente più arricchito, il δ di default è impostato per il 99 °-quantile di Pois (λ a).
  2. Impostare il blocco con la massima c θ come il vertice di picco candidato e adiacenti blocchi di accompagnamento che condividono una tana simile letturasità (± 1 lettura contare fino a consentire la leggera variazione). Questa regione annesso è definito come un sito candidato vincolante.
  3. Calcola λ 2 come le conte medie di lettura del sito candidato ChIP legame e test di ipotesi tale contesto ingresso verso l'ipotesi nulla fosse, H 0, è che λ 1λ 2 e rifiutare H 0 basato su un p-valore di soglia. Candidati picchi di uscita in formato LETTO.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCP eccelle ad identificare regioni di arricchimento ampio dati di modifica degli istoni. Come punto di riferimento, precedentemente abbiamo confrontato i nostri risultati a quelli di Sicer 3, uno strumento esistente che ha dimostrato ottime prestazioni. Per illustrare al meglio i vantaggi BCP, abbiamo esaminato una modificazione degli istoni che era stato ben studiato per creare una base per valutare i tassi di successo. Con questo in mente, abbiamo poi analizzato H3K36me3, poiché è stato dimostrato di associarsi fortemente con corpi attivamente trascritti genici (Figura 1). In contrasto, H3K36me3 aveva anche dimostrato di essere esclusiva reciproco H3K27me3 segni repressive. Abbiamo ulteriormente sfruttate queste relazioni note per illustrare i vantaggi di prestazione di BCP nella precisione delle chiamate dell'isola determinando la frazione di sovrapposizione con le associazioni note e disassociations, in correlazione effetto e anti-correlazione. Qui, abbiamo ulteriormente dimostrare i vantaggi di BCP con ulteriori esempidi elevate prestazioni.

Il nostro lavoro precedente, ha dimostrato una tendenza per le dimensioni molto più grande isola in BCP, 23,9-25,8 kb, che Sicer, 2,7-10,7 kb; grandi isole che sono più in linea con le aspettative convenzionale di ampie isole diffuse di H3K36me3 arricchimento (PLoS Comp Bio, submitted). Naturalmente, grandi isole non solo indicano la precisione. Quindi, abbiamo determinato quanto si sovrappongono queste regioni, con i geni noti e contrasto questo con il grado di sovrapposizione con lo spazio intergenica, l'indicazione del tasso di falsi positivi (FPR). Gene copertura in BCP variava ,492-0,497 rispetto a 0,276-0,437 in Sicer senza incidere negativamente il FPR; intergenica gamma sovrapposizione ,89-,90 e ,85-0,98 in BCP e Sicer, rispettivamente. Qui, vi presentiamo una regione ulteriore rappresentante visualizzare la stretta relazione tra i confini di arricchimento e gene corpi distinguendo chiaramente attiva e reprimereed trascrizione (Figura 1). Questo rafforza ulteriormente la nostra tesi secondo cui BCP mantiene la sovrapposizione elevati di geni attivi da H3K36me3 isole con i confini strettamente allineati agli organismi gene senza aumentare il grado di sovrapposizione falsi positivi con lo spazio intergenica, geni con la trascrizione repressa, o il marchio H3K27me3 repressiva.

Nel valutare la riproducibilità di BCP-isola chiamate in due set di dati replicati, abbiamo notato BCP non soffrono di una forte dipendenza approfondita lettura nell'algoritmo concorrente, Sicer. Forniamo ulteriori prove di robustezza e riproducibilità BCP esaminando ulteriori regioni distinte dimostrando confini insulari coerenti nonostante la profondità ridotta copertura (simulato mediante campionamento legge dal set di dati) (Figura 2).

Per dimostrare appieno la versatilità del BCP, abbiamo ottenuto un ampio spettro di dati di modifica istoni, compreso il marchio puntatas H3K27ac, H3K9ac e H3K4me3, e il marchio diffuso, H3K9me3, oltre a H3K27me3 e H3K36me3. Abbiamo analizzato questi set di dati utilizzando le impostazioni di default dei parametri sia per BCP e Sicer (Figura 3). Questi marchi rappresentano una vasta gamma di leggere i profili di densità e ci permettono di concentrarsi su una regione che illustra molte delle caratteristiche comunemente associate con loro. Al centro si trova H3K36me3 di arricchimento presso il gene PXDN marcatura trascrizione attiva. Cadere da aspettarsi al sito di inizio della trascrizione sono i supplementari puntiformi, marchi attivi, H3K27ac, H3K9ac e H3K4me3. Solo a valle di PXDN viene represso spazio intergenica segnato da H3K27me3 arricchimento. Sul versante opposto si trova un gene H3K27me3 represso. Spostamento di un ulteriore passo in cromatina sono messi a tacere, come indicato dalla presenza di H3K9me3 arricchimento che appare per indicare il silenziamento di SNTG2 MYT1L e, forse, in un certo senso meno transitorio quindi H3K27me3 repressione. Questa regione comprende le principali fenomeni encontrastato in ChIPseq di modificazioni istoniche e illustra come la natura dinamica del BCP in grado di identificare sia acetilazione puntata e H3K4me3 segni al tempo stesso distinguere grandi isole contigue H3K27me3 e H3K9me3 repressione e H3K36me3 trascrizione attiva. Per ribadire, BCP può fare come tutte queste analisi semplicemente con le impostazioni predefinite e, come dimostrato, continuano a produrre risultati di qualità, a prescindere dal tipo di dati. L'algoritmo è anche veloce ed efficiente della memoria e, quindi, fornisce una utilità pratica convincente.

Figura 1
Figura 1. Diffuse leggere i profili di densità di modificazioni istoniche. H3K27me3 (in alto) e H3K36me3 (in basso) esemplificano le grandi isole, di arricchimento diffuse fortemente associati con gli organismi gene (caselle verdi). H3K27me3 correla con i geni repressi e spazio intergenica e anticorrelates con attivamente trorganismi gene anscribed. Il contrario è vero per H3K36me3. I dati sono visualizzati nel browser genoma UCSC ( http://genome.ucsc.edu ).

Figura 2
Figura 2. BCP è robusto e riproducibile. Isola chiede H3K36me3 in due repliche a frequenze di campionamento e profondità di 30%, 50 e 70 della replica completa 1 set di dati sono stati analizzati con BCP. La seconda replica, con una copertura di lettura sostanzialmente inferiore, prodotta chiamate insulari simili e il grado di sovrapposizione è altamente conservato indipendentemente campionamento percentuale. Inoltre, le isole rimasero precisione come si è visto in stretto allineamento dei confini con annotazioni del gene del corpo Refseq.

Figura 3
Figura 3. BCP è una versaPiastrella algoritmo che può essere applicato a tutti i tipi di modifiche istone dati. BCP e Sicer sono stati utilizzati per analizzare la gamma di tipi di dati, dai marchi puntiformi come H3K27ac, H3K9ac e H3K4me3, per diffondere i marchi come H3K36me3, H3K27me3 e H3K9me3. Utilizzando i parametri di default per entrambi gli algoritmi, le isole BCP catturare la densità arricchito indipendentemente dalla loro ampiezza, mentre Sicer frammenta spesso regioni in molti sotto-isole. Anche nel caso molto ampia e diffusa H3K9me3, BCP ha prestazioni ragionevoli.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Abbiamo deciso di sviluppare un modello per l'analisi dei dati ChIPseq che potrebbe identificare sia le strutture puntiformi e diffuse di dati altrettanto bene. Fino ad ora, le regioni di arricchimento, regioni particolarmente diffuse, che riflettono l'aspettativa presupposto di dimensioni grande isola, sono stati difficili da identificare. Per risolvere questi problemi, abbiamo utilizzato i più recenti progressi nella tecnologia HMM, che possiedono molti vantaggi rispetto ai modelli euristici esistenti e HMM meno innovative.

Il nostro modello si avvale di un quadro bayesiano con formule esplicite. Questa è una distinzione fondamentale da HMM altri, in quanto ci permette di calcolare i mezzi posteriori, l'atteso leggere densità di ciascun segmento, con semplici calcoli, piuttosto che basarsi su simulazioni in termini di tempo e computazionalmente costosi come Markov Chain Monte Carlo. Di conseguenza, i nostri tempi di calcolo e requisiti di memoria sono notevolmente ridotti. Utilizzando ad alte prestazioni di calcolo cluster winucleo dual °, 2.0 nodi GHz con 2 GB di memoria a 64 bit per analizzare ~ 23000000 H3K27me3 legge o ~ 21000000 H3K36me3 legge, BCP ha impiegato meno di un'ora per l'analisi dell'intero genoma rispetto a diverse ore o giorni necessari per altri metodi. Questi risparmi di tempo può essere ottenuto soltanto con il modesto 2 GB di memoria.

Inoltre, le nostre condizioni di modello ai diversi mezzi di ogni segmento, vale a dire. Pois (θ), su una distribuzione Gamma continua. Essenzialmente, questo permette infinite possibili stati per ciascun segmento. BCP in grado di fornire più di classificazioni binari semplici arricchito rispetto al fondo e conserva le grandezze densità di lettura per ogni segmento attraverso i mezzi di uscita posteriore.

Abbiamo anche utilizzare l'algoritmo BCMIX per l'efficienza computazionale. Ciò consente una ricerca esaustiva vicino per cambiare-punti tra l'arricchimento e lo sfondo di tutte le posizioni possibili genomiche. Ciò fornisce una risoluzione accresciuta non confined da definizioni della finestra arbitrarie, con un impatto minimo sul tempo di esecuzione o di richieste di memoria.

Tutto questo è realizzato senza perturbare precisione, in teoria, poiché il modello è statisticamente rigorosa e suoi risultati convergono allo stimatore Bayesiano, nonché in pratica, come abbiamo dimostrato qui. La copertura gene dei nostri risultati suggeriscono H3K36me3 le chiamate isole sono molto precise, senza sconfinare nel noto spazio reciprocamente esclusi intergenica o H3K27me3 arricchimento. I risultati sono molto riproducibili e robusto e ha mostrato la dipendenza po approfondimenti, chiamando isole simili con copertura gene alto e FPR bassa nonostante profondità di campionamento a partire da 30%. BCP è stato utilizzato ampiamente, senza alcuna regolazione di parametri di default, per analizzare una vasta gamma di modificazione degli istoni e la trascrizione dei dati ChIPseq fattore e ottenuto buoni risultati in tutti i casi. Speriamo che per la sua alta precisione, robustezza, e la riproducibilità, BCP servirà come un efficacestrumento per l'analisi dei dati, la collaborazione, e conferma per il futuro.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Nessun conflitto di interessi dichiarati.

Acknowledgments

STARR fondazione premio (MQZ), sovvenzione del NIH ES017166 (MQZ), NSF concedere DMS0906593 (HX).

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

Genetica Numero 70 Bioinformatica Genomica Biologia Molecolare Biologia Cellulare Immunologia immunoprecipitazione della cromatina ChIP-Seq modificazioni degli istoni segmentazione bayesiani Hidden Markov Models epigenetica
A Novel bayesiano Cambia punto di Algoritmo per Genome-wide analisi di diversi tipi di dati ChIPseq
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter