DNA regulatoriske elementer, for eksempel enhancers, kontrollere genuttrykk ved fysisk å kontakte målet genet arrangører, ofte gjennom langtrekkende chromosomal interaksjoner spenner genomisk distanser. Promotoren fange Hi-C (PCHi-C) identifiserer betydelig interaksjon mellom arrangører og distale regioner, aktivere tilordningen av potensielle regulatoriske sekvenser til sine mål gener.
Tredimensjonale organiseringen av genomet er knyttet til sin funksjon. For eksempel styre regulatoriske elementer som transcriptional enhancers spatio-temporale uttrykk for sine mål gener gjennom fysisk kontakt, ofte bygge bro betydelig (i noen tilfeller hundrevis av kilobases) genomisk avstander og omgåelsen nærliggende gener. Det menneskelige genomet havner en anslagsvis én million enhancers, de aller fleste som har ukjente genet mål. Tilordne distale regulatoriske regioner til sine mål gener er derfor avgjørende å forstå gene expression kontroll. Vi utviklet selskapet fange Hi-C (PCHi-C) for å aktivere genomet hele påvisning av distale promoter-samspill regioner (PIRs), alle arrangører i ett enkelt eksperiment. I PCHi-C, er svært komplekse Hi-C biblioteker spesielt beriket for arrangøren sekvenser gjennom i-løsning hybrid utvalg med tusenvis av biotinylated RNA agn utfyllende til endene av alle promoter inneholder begrensning fragmenter. Målet er å deretter rullegardinmenyen promoter sekvenser og deres hyppige samhandling partnere som enhancers og andre potensielle regulatoriske elementer. Etter høy gjennomstrømming sammen-end sekvensering brukes en statistisk test hver promoter-samskrevet begrensning fragment å identifisere viktige PIRs på fragment begrensningsnivå. PCHi-C har vi brukt til å generere en atlas av langtrekkende Promotoren samhandling i dusinvis av menneskelige og mus celletyper. Disse arrangøren interactome kartene har bidratt til en større forståelse av pattedyr gene expression kontroll av tilordne antatte regulatoriske regioner til sine mål gener og avslørende fortrinnsrett romlige promoter-arrangøren samhandling nettverk. Denne informasjonen også har høy relevans å forstå menneskelig genetisk sykdom og identifisering av potensielle sykdom gener, ved å koble ikke-koding sykdomsassosierte sekvens varianter i eller nær kontroll sekvenser til sine mål gener.
Samler bevis antyder at tredimensjonale organiseringen av genomet spiller en viktig funksjonelle rolle i en rekke kjernefysisk prosessene, inkludert gene aktivisering1,2,3, undertrykkelse4 ,5,6,7,8, rekombinasjon9,10, DNA reparasjon11, DNA replikering12,13, og mobilnettet senescence14. Fjern enhancers finnes i romlig nærhet til arrangørene de regulerer15,16,17, som er avgjørende for riktig spatio-temporale gene expression kontroll. Enhancer slettinger viser at distale enhancers er avgjørende for målet genet transkripsjon18,19,20,21,22og “tvunget chromatin looper” viser at utviklet deling mellom en enhancer og dens mål formidler i Hbb locus er tilstrekkelig til å kjøre transcriptional aktivisering23. Videre kan genomet rearrangements som bringer gener under kontroll av ektopisk enhancers resultere i upassende genet aktivisering og sykdom24,25,26. Sammen viser disse eksemplene at arrangøren-enhancer interaksjoner er avgjørende for gen kontroll og krever tett forskrift for å sikre riktig genuttrykk. Menneskelige og mus genomer hver anslås for å havn rundt en million enhancers. De aller fleste av disse enhancers, målet gener er ukjent og ‘engasjementsreglene’ mellom arrangørene og enhancers er dårlig forstått. Tilordne transcriptional enhancers til sine mål gener dermed fortsatt en stor utfordring i tyde pattedyr gene expression kontroll.
Vår forståelse av tredimensjonale genomet arkitektur er blitt revolusjonert av innføring av 3C27 (kromosom konformasjon fange) og dens varianter28,29,30,31 . Den mektigste av disse teknikkene, Hi-C (høy gjennomstrømning kromosom konformasjon fange) er utformet for å identifisere hele ensemblet av chromosomal interaksjoner i cellen innbyggere. Hei-C biblioteker, vanligvis genereres fra millioner av celler, er svært kompleks med en beregnede 1011 uavhengige ligation produkter mellom ~ 4 kb fragmenter i det menneskelige genom32. Som en konsekvens, pålitelig og reproduserbar identifikasjon av samspillet mellom individuelle begrensning fragmenter (som de som inneholder en formidler eller enhancer) fra er Hi-C data ikke mulig med mindre Hi-C biblioteker er utsatt for ultra-dypt sekvensering, som er ikke en økonomisk løsning for laboratorier forbereder Hi-C biblioteker rutinemessig. For å omgå dette brist, utviklet vi Promoter fange Hi-C for å berike spesielt promoter inneholder ligation produkter fra Hi-C biblioteker. Vi fokusert på arrangører av to grunner. Først selskapet-enhancer kontakter har vist seg å være avgjørende for riktig gene expression nivåer i en rekke studier (se referanser ovenfor), og andre som arrangører er i stor grad invariant mellom celletyper, samme fange agn system kan brukes til å forhøre det regulatoriske kretsløpet over flere celletyper og betingelser. Vår tilnærming er avhengig av-løsning hybridisering Hi-C biblioteker med titusenvis av biotinylated RNA 120mers utfyllende til arrangøren inneholder Hi-C ligation produkter og påfølgende fangst streptavidin-belagt magnetiske perler. Dette resulterer i PCHi-C biblioteker med mye redusert kompleksitet i forhold til den opprinnelige Hi-C biblioteket, fokuserer bare på identifisering av fragmenter som er samskrevet til arrangører ved betydelig høye frekvenser.
Vi har brukt PCHi-C i en rekke menneskelige og mus celletyper å bidra til en bedre forståelse av gene expression kontroll av avdekke langtrekkende distale promoter samspill regioner med antatte regulatoriske funksjonen, samt ikke tilfeldig Promotoren-arrangøren kontakter i tredimensjonale løpet av kjernen. Studier har kartlagt hundretusener av arrangøren-enhancer kontakter over mange celle typer33,34,35,36,37,38, 39, identifisert Polycomb undertrykkende komplekse-mediert romlige genomet organisasjon i mus embryonale stamceller7, viste store rewiring av arrangøren interactomes under differensiering37, 38 , 39og koblet ikke-koding sykdomsassosierte sekvens varianter til genet arrangører35.
PCHi-C er en godt egnet metode for å tilordne genomet hele ensemblet av DNA-sekvenser samarbeidsstil arrangører. Relaterte tilnærminger, som fange Hi-C kontinuerlig genomisk regioner (se diskusjon) er metoden for valg å få høyoppløselige samhandling profiler for utvalgte genomisk regioner. PCHi-C og fange Hi-C er svært like fra en eksperimentelle synspunkt (den eneste forskjellen er valg av systemet), slik at råd og retningslinjer tilbyr gjelder for begge tilnærminger. Her presenterer vi en detaljert beskrivelse av PCHi-C. Vi skissere begrunnelsen og utformingen av en PCHi-C eksperiment, gi en trinnvis PCHi-C biblioteket generasjon protokoll, og illustrerer hvordan kvaliteten på PCHi-C biblioteker kan overvåkes på ulike trinn i protokollen for å gi høy kvalitet dataene.
Modulær utforming av arrangøren fange Hi-C
Arrangøren fange Hi-C er utformet for å berike spesielt Hi-C biblioteker for samhandlinger med arrangører. Denne samhandlingen omfatter bare et delsett av hemorroider produkter i et Hi-C-bibliotek.
Fange Hi-C kan enkelt endres for å berike Hi-C biblioteker for genomisk regionen eller regioner av interesse ved å endre fange system. Fange regioner kan være kontinuerlig genomisk segmenter44,45,46,48, enhancers som har blitt identifisert i PCHi-C (omvendt fange Hi-C35) og DNase jeg overfølsom nettsteder49 . Størrelsen på systemet kan justeres avhengig av eksperimentelle området. For eksempel Dryden et al. målrette 519 agn fragmenter i tre genet ørkener tilknyttet bryst kreft44. Fange systemet av Martin et al. mål både kontinuerlig genomisk segmenter (‘Regionen fange’: 211 genomisk regioner totalt; 2,131 begrensning fragmenter) og valgt arrangører (3,857 gen arrangører)45.
SureSelect bibliotek er tilgjengelig i forskjellige størrelse områder: 1 kb 499 KB (5 190-4,806), 500 kb 2.9 MB (5 190-4,816), og 3 Mb til 5,9 Mb (5 190-4,831). Hver enkelt fange biotin-RNA er 120 nukleotider lang, disse fange systemer innkvartere maksimalt 4,158, 24,166 og 49,166 personlige fange sonder, henholdsvis. Dette tilsvarer 2,079, 12,083 og 24,583 målrettet begrensning fragmenter, henholdsvis (Merk at tallene for begrensning fragmenter er nedre basert på antagelsen at to individuelle fange sonder kan være konstruert for hver begrensning fragment — i virkeligheten på grunn av gjentatte sekvenser vil dette ikke være tilfelle for hver begrensning fragmentere (se også figur 1B, C), som resulterer i mange av targetable begrensning for et konstant antall tilgjengelige fange sonder ).
Protokollen beskrevet her er basert på bruk av en begrensning enzym med en 6 bp anerkjennelse webområdet å avdekke langtrekkende interaksjoner. Bruke en begrensning enzym med en 4 bp anerkjennelse webområdet for høyere oppløsning på mer proksimale interaksjoner er også mulig40,49.
Begrensningene for PCHi-C
En iboende begrensning av alle kromosom konformasjon fange analyser er at oppløsningen bestemmes av begrensning enzymet brukes til generering av biblioteket. Samhandlinger som oppstår mellom DNA elementer på samme begrensning fragmentet er usynlige for ‘C-type-analyser. Videre, i PCHi-C, i noen tilfeller flere transkripsjon startwebstedet kan være plassert på samme promoter inneholder begrensning fragmentet og PIRs i noen tilfeller havn både aktive og undertrykkende histone merker, gjør det vanskelig å finne som regulatoriske elementer megle interaksjoner, og forutsi regulatoriske utdataene for arrangøren interaksjoner. Bruker begrensningen enzymer med 4 bp anerkjennelse nettsteder dette problemet men kommer på bekostning av vesentlig økt Hi-C biblioteket kompleksitet (Hi-C biblioteker generert med 4 bp anerkjennelse området begrensning enzymer er minst 100 ganger mer komplekse enn Hi-C biblioteker generert med 6 bp anerkjennelse området begrensning enzymer) og tilhørende kostnader for neste generasjons sekvensering.
En annen begrensning er at den nåværende PCHi-C-protokollen krever millioner av celler som starter materiale, slik at analyse av arrangøren interaksjoner i sjeldne celletyper. En modifisert versjon av PCHi-C for å aktivere avhør av arrangøren kontakter i celle populasjoner med 10 000 til 100.000 celler (for eksempel celler under embryonale utviklingen eller blodkreft stamceller) vil derfor være et verdifullt tillegg til fange Hei-C verktøykasse.
Til slutt, som alle metoder som er avhengige av formaldehyd fiksering, PCHi-C bare registrerer interaksjoner som er “frosset” på tidspunktet for fiksering. Dermed for å studere kinetics og dynamikken i Promotoren samhandling, er metoder som Super-oppløsning levende celle mikroskopi nødvendig sammen med PCHi-C.
Metoder for å analysere romlige kromosom organisasjon med høy oppløsning
Store kompleksiteten av chromosomal samhandling biblioteker forbyr pålitelig identifikasjon av samspillet mellom to spesifikk begrensning fragmenter med statistiske betydning. For å omgå dette problemet, har sekvens fangst blitt brukt til å berike Hi-C33,34,40,44 eller 3 C50,51 biblioteker for spesifikke interaksjoner. Den største fordelen ved hjelp Hi-C biblioteker over 3C biblioteker for berikelse trinn er at Hi-C, i motsetning til 3C, inneholder en berikelse trinn for ekte ligation produkter. Som en konsekvens, er ønsket gyldig leser i PCHi-C biblioteker ca 10-fold høyere enn i fangst-C biblioteker50, som inneholdt rundt 5-8% gyldig leser etter HiCUP filtrering. Sahlen et al. sammenlignet direkte fangst-C for å HiCap, som i likhet PCHi-C bruker Hi-C biblioteker for fangst berikelse, i motsetning Capture-C som bruker 3 C-biblioteker. I samsvar med våre funn, fant de at fange-C biblioteker er hovedsakelig sammensatt av un ligated fragmenter40. I tillegg hadde HiCap biblioteker en høyere kompleksitet enn fangst-C biblioteker40.
En variant av fangst-C, kalt neste generasjons fangst-C52 (NG fangst-C) bruker en oligo per begrensning fragment slutten, tidligere etablert i PCHi-C33,34, i stedet for overlappende sonder brukes i opprinnelige Fange-C protokoll50. Dette øker andelen gyldig leser forhold til fange-C beskjedent, men NG fangst-C sysselsetter sekvensiell budrundene fange berikelse, og et relativt høyt antall PCR sykluser (20-24 sykluser totalt sammenlignet 11 sykluser vanligvis PCHi-c), som uunngåelig resulterer i høyere antall sekvens duplikater og lavere biblioteket kompleksitet. I rettssaken eksperimenter i optimalisering av PCHi-C, fant vi at prosentandelen av unike (dvs. ikke dupliseres) lese par var rundt bare 15% når vi brukte 19 PCR sykluser (13 sykluser før fange + 6 sykluser etter fange; dataene ikke), men optimalisering til et lavere antall PCR sykluser, vanligvis gir 75 – 90% unike Les par. Dermed øker reduserer PCR sykluser vesentlig mengden informativ sekvens data.
En nyere metode kombinerer ChIP med Hi-C for å fokusere på chromosomal interaksjoner formidlet av et bestemt protein av interesse (HiChIP53). Sammenlignet med ChIA-PET54, som er basert på en lignende begrunnelse, inneholder HiChIP dataene mange informative sekvens lyder, slik at høyere interaksjon ringer53. Det vil være svært interessant for direkte sammenligne de tilsvarende HiChIP og fange Hi-C datasett de blir når tilgjengelig (for eksempel HiChIP bruke et antistoff mot cohesin enhet Smc1a53 med fange Hi-C for alle Smc1a bundet begrensning fragmenter) side ved side. En iboende forskjellen mellom disse to tilnærmingene er at fange Hi-C ikke er avhengig av chromatin immunoprecipitation, og derfor er i stand til å forhøre chromosomal interaksjoner uansett protein innkvartering. Dette gjør sammenligning av 3D genomet organisasjon på tilstedeværelse eller fravær av momentet bindende som er brukt til å identifisere PRC1 som en viktig regulator av musen ESC romlige genomet arkitektur7.
PCHi-C og GWAS
Genomet hele association studier (GWAS) har avdekket at mer enn 95% av sykdomsassosierte sekvens varianter finnes i ikke-koding regioner i genomet, ofte på store avstander til protein-koding gener55. GWAS varianter er ofte funnet i nærheten DNase jeg overfølsom områder, som er et kjennetegn på sekvenser med potensielle regulatoriske aktivitet. PCHi-C og fange Hi-C har blitt brukt mye koble arrangører til GWAS risiko loci innblandet i brystkreft kreft44, tykktarmskreft48og autoimmune sykdommer35,45,46. En PCHi-C studier på 17 ulike menneskelige blodkreft celle typer funnet SNPs tilknyttet autoimmun sykdom ble anriket på PIRs i lymfoide celler, mens sekvens varianter tilknyttet blodplater og røde blodlegemer særtrekk fant hovedsakelig i makrofager og erythroblasts, henholdsvis35,56. Dermed vev-type bestemt arrangøren interactomes avdekket ved PCHi-C kan bidra til å forstå funksjonen av ikke-koding sykdomsassosierte sekvens varianter og identifisere nye potensielle sykdom gener for terapeutisk intervensjon.
Egenskapene til arrangøren-samspill regioner
Flere linjer av bevis link arrangøren interactomes gene expression kontroll. Først flere PCHi-C studier har vist at genomisk regioner samarbeidsstil arrangører av (svært) uttrykt gener er beriket i merker tilknyttet enhancer aktivitet, for eksempel H3K27 acetylation og p300 bindende33,34 , 37. vi fant en positiv korrelasjon mellom gene expression nivå og antall samspill enhancers, antyder at additiv effekter av enhancers resultere i økt genuttrykk nivåer34,35. Andre naturlig forekommende uttrykk kvantitative egenskap loci (eQTLs) er beriket i PIRs som er koblet til samme gener som uttrykk er påvirket av eQTLs35. Tredje ved å integrere tur57 og PCHi-C data, funnet Cairns et al. at turen reporter gener tilordning til PIRs i musen ESCs vise sterkere reporter genuttrykk enn reporter gener på integrering steder i ikke-arrangøren-samspill regioner 58, som angir at PIRs har transcriptional regulatoriske aktivitet. Sammen tyder disse funnene på at selskapet interactomes avdekket ved PCHi-C i forskjellige mus og menneskelige celletyper inkluderer viktige forskrifter moduler for gene expression kontroll.
Det er verdt å merke seg at enhancers representerer bare en liten brøkdel (~ 20%) av alle PIRs avdekket ved PCHi-C33,34. Andre PIRs kan ha strukturelle eller topologisk roller i stedet for direkte transcriptional regulatoriske funksjoner. Men er det også bevis for at PCHi-C kan avdekke DNA elementer med regelverket som ikke havn klassisk enhancer merker. I en human lymfoide celle linje, ble BRD7 selskapet funnet for å samhandle med et område uten enhancer merker som ble vist å ha enhancer aktivitet reporter genet analyser33. Regulatoriske elementer med lignende egenskaper kan være mer rikelig enn er verdsatt. For eksempel markerer en CRISPR-basert skjerm for regulatoriske DNA elementer identifisert umerkede regulatoriske elementer (utfall) kontrollere genuttrykk er blottet for enhancer59.
I andre tilfeller har PIRs vist å havn chromatin merker knyttet transcriptional undertrykkelse. PIRs og samspill arrangører bundet av PRC1 i musen ESCs var engasjert i et omfattende romlige nettverk av fortrengte gener bærer det undertrykkende merke H3K27me37. I menneskelig lymphoblastoid celler, en Fjern element samspill med BCL6 arrangøren undertrykt transgene reporter gene expression33, tyder på at det kan fungere for å undertrykke BCL6 transkripsjon i sin opprinnelige sammenheng.
PIRs beriket for bruk av chromatin isolator protein CTCF i menneskelig ESCs og NECs37 kan representere enda en klasse av PIRs. Samlet tyder disse resultatene på at PIRs havn samling genet regulatoriske aktiviteter ennå å være funksjonelt preget.
The authors have nothing to disclose.
Vi takker Valeriya Malysheva for kritisk lesing av manuskriptet og eksperthjelp med figur 1. Dette arbeidet ble støttet av i Medical Research Council, UK (MR/L007150/1) og UK bioteknologi og Biological Sciences Research Council, UK (BB/J004480/1).
16% (vol/vol) paraformaldehyde solution | Agar Scientific | R1026 | |
Dulbecco's Modified Eagle Medium (DMEM) 1x | Life Technologies | 41965-039 | |
Fetal bovine serum (FBS) sterile filtered | Sigma | F9665 | |
Low-retention filter tips | Starlab | S1180-3810, S1180-1810, S1180-8810 and S1182-1830 | |
10x PBS pH 7.4 | Life Technologies | 70011-036 | |
Molecular biology grade water | Sigma-Aldrich | W4502 | |
1 M Tris-HCl pH 8.0 | Life Technologies | 15568-025 | |
IGEPAL CA-630 | Sigma-Aldrich | I8896 | |
5 M NaCl | Life Technologies | 24740-011 | |
Protease inhibitor cocktail (EDTA-free) | Roche Diagnostics | 11873580001 | |
Restriction buffer 2 (10x NEBuffer 2) | New England Biolabs | B7002 | |
DNA LoBind tube, 1.5 mL | Eppendorf | 0030 108.051 | |
DNA LoBind tube, 2 mL | Eppendorf | 30108078 | |
20% (wt/vol) SDS | Bio-Rad Laboratories | 161-0418 | |
20% (vol/vol) Triton X-100 | Sigma-Aldrich | T8787 | |
HindIII, 100 U/uL | New England Biolabs | R0104 | |
10 mM dCTP | Life Technologies | 18253-013 | |
10 mM dGTP | Life Technologies | 18254-011 | |
10 mM dTTP | Life Technologies | 18255-018 | |
0.4 mM Biotin-14-dATP | Life Technologies | 19524-016 | |
DNA polymerase I large (Klenow) fragment 5000 units/mL | New England Biolabs | M0210 | |
10x T4 DNA ligase reaction buffer | New England Biolabs | B0202 | |
100x 10mg/ml Bovine Serum Albumin | New England Biolabs | B9001 | |
T4 DNA ligase, 1 U/μL | Invitrogen | 15224-025 | |
RNase A | Roche | 10109142001 | |
Proteinase K, recombinant, PCR grade | Roche | 3115836001 | |
20 000×g 50 ml centrifuge tube | VWR | 525-0156 | |
0.5 M EDTA pH 8.0 | Life Technologies | 15575-020 | |
Phenol pH 8.0 | Sigma | P4557 | |
Phenol: Chloroform: Isoamyl Alcohol 25:24:1 | Sigma | P3803 | |
Sodium acetate pH 5.2 | Sigma | S7899 | |
Quant-iT PicoGreen | Invitrogen | P7589 | |
QIAquick Gel Extraction Kit | Qiagen | 28704 | |
QIAquick PCR Purification Kit | Qiagen | 28104 | |
Restriction buffer 2.1 (10x NEBuffer 2.1) | New England Biolabs | B7202 | |
NheI, 100U/uL | New England Biolabs | R0131 | |
Micro TUBE AFA Fiber Pre-slit snap cap 6x16mm vials | Covaris | 520045 | For sonication |
SPRI beads (Agencourt AMPure XP) | Beckman Coulter | A63881 | |
Dynabeads MyOne Streptavidin C1 beads | Invitrogen | 65001 | |
Tween 20 | Sigma | P9416 | |
10 mM dATP | Life Technologies | 18252-015 | |
T4 DNA polymerase 3000 units/mL | New England Biolabs | M0203 | |
T4 PNK 10000 units/mL | New England Biolabs | M0201 | |
Klenow exo minus 5000 units/mL | New England Biolabs | M0212 | |
Quick ligation reaction buffer | New England Biolabs | B6058 | |
NEB DNA Quick ligase | New England Biolabs | M2200 | |
PE adapter 1.0 (5'-P-GATCGGAAGAGCGGTTCAGC AGGAATGCCGAG-3') |
Illumina | ||
PE adapter 2.0 (5'-ACACTCTTTCCCTACACGACGCT CTTCCGATCT-3') |
Illumina | ||
NEB Phusion PCR kit | New England Biolabs | M0530 | |
PE PCR primer 1.0 (5'-AATGATACGGCGACCACCGA GATCTACACTCTTTCCCTAC ACGACGCTCTTCCGATCT-3') |
Illumina | ||
PE PCR primer 2.0 (5'-CAAGCAGAAGACGGCATACGA GATCGGTCTCGGCATTCCT GCTGAACCGCTCTTCCGATCT-3') |
Illumina | ||
PCR strips | Agilent Technologies | 410022 and 401425 | |
SureSelect SSEL TE Reagent ILM PE full adaptor kit | Agilent Technologies | 931108 | |
SureSelect custom 3-5.9 Mb library | Agilent Technologies | 5190-4831 | custom design mouse or human PCHi-C system |
Dynabeads MyOne Streptavidin T1 beads | Invitrogen | 65601 | |
E220 high-performance focused ultra-sonicator | Corvaris | E220 |