Regulatoriska DNA-element, såsom förstärkare, kontrollera genuttryck genom att fysiskt kontakta mål genen initiativtagare, ofta genom långväga kromosomala interaktioner som spänner över stora genomisk avstånd. Arrangören fånga Hi-C (PCHi-C) identifierar signifikanta interaktioner mellan initiativtagare och distala regioner, möjliggör tilldelning av potentiella reglerande sekvenser till deras målgener.
Tredimensionella organisationen av genomet är kopplad till dess funktion. Till exempel styra föreskrivande element såsom transkriptionell enhancers plats och tid uttryck för deras målgener genom fysisk kontakt, ofta överbrygga betydande (i vissa fall hundratals av kilobases) genomisk avstånd och förbi närbelägna gener. Det mänskliga genomet hamnar en uppskattningsvis en miljon smakförstärkare, de allra flesta som har okänd gen mål. Tilldela distala regulatoriska regioner till deras målgener är därför avgörande att förstå gen uttryck kontroll. Vi utvecklat arrangören fånga Hi-C (PCHi-C) för att aktivera genome-wide detektion av distala arrangören-interagera regioner (PIRs), för alla initiativtagare i ett enda experiment. I PCHi-C, är mycket komplexa Hi-C-bibliotek speciellt berikad för arrangören sekvenser genom i-lösning hybrid urval med tusentals biotinylerade RNA beten komplement till ändarna av alla arrangören-innehållande begränsning fragment. Syftet är att sedan nedrullningsbara arrangören sekvenser och deras ofta förekommande samspel partners såsom förstärkare och andra potentiella rättsliga element. Efter hög genomströmning Parade-end sekvensering appliceras en statistisk test varje arrangören-sammanskrivna begränsning fragment att identifiera betydande PIRs på nivån begränsning fragment. Vi har använt PCHi-C för att generera en atlas för långväga arrangören interaktioner i dussintals mänskliga och mus celltyper. Dessa arrangören interactome kartor har bidragit till en större förståelse för däggdjur uttryck kontroll genom tilldela sin målgener förmodad regulatoriska regioner och avslöjar förmånliga rumsliga arrangören-promotorn interaktion nätverk. Denna information har också hög relevans för att förstå mänskliga genetiska sjukdomar och identifiering av potentiella sjukdomsgener, genom att länka icke-kodande sjukdomsassocierade sekvens varianter i eller nära styrförlopp till deras målgener.
Ackumulerande bevis antyder att den tredimensionella organisationen av genomet spelar en viktig funktionell roll i en rad nukleära processer, inklusive gen aktivering1,2,3, förtryck4 ,5,6,7,8, rekombination9,10, DNA reparation11, DNA-replikering12,13, och cellulära åldras14. Avlägsna förstärkare finns i rumslig närhet till initiativtagarna de reglerar15,16,17, vilket är viktigt för korrekt plats och tid gen uttryck kontroll. Enhancer borttagningar visar att distala förstärkare är avgörande för målet gen transkription18,19,20,21,22, och ‘tvingat kromatin looping’ visar att bakåtkompilerade tjudra mellan en förstärkare och dess mål tillskyndare i det Hbb locus är tillräcklig för att driva transkriptionell aktivering23. Ytterligare, genomet omflyttningar som föra gener under kontroll av ektopisk förstärkare kan resultera i olämpligt gen aktivering och sjukdom24,25,26. Tillsammans, illustrerar dessa exempel att arrangören-enhancer interaktioner är väsentliga för genen kontroll och kräver snäva förordningen för att säkerställa lämpliga genuttryck. Människan och mus genomen uppskattas varje hamn cirka en miljon smakförstärkare. Målgener är okända för den stora majoriteten av dessa medel, och ‘insatsreglerna’ mellan initiativtagare och smakförstärkare är dåligt känd. Tilldela transkriptionell smakförstärkare till deras målgener således fortfarande en stor utmaning i dechiffrera däggdjur uttryck kontroll.
Genom införandet av 3C27 (kromosom konformation capture) och dess varianter28,29,30,31 har revolutionerat vår förståelse av tredimensionella genomets arkitektur . Den mäktigaste av dessa tekniker, Hi-C (hög genomströmning kromosom konformation capture) syftar till att identifiera hela ensemblen av kromosomala interaktioner inom en cell befolkning. Hi-C bibliotek, normalt genereras från miljontals celler, är mycket komplex med en beräknad 1011 oberoende ligering produkter mellan ~ 4 kb fragment i det mänskliga genom32. Som en följd, tillförlitliga och reproducerbara identifiering av interaktioner mellan enskilda begränsningen fragment (till exempel de som innehåller en promotor eller förstärkare) från är Hi-C data inte möjlig om inte Hi-C bibliotek utsätts för Ultra djupsekvensering, som inte är en ekonomiskt hållbar lösning för laboratorier förbereder Hi-C bibliotek rutinmässigt. För att kringgå denna brist, utvecklade vi arrangören fånga Hi-C för att specifikt berika arrangören-innehållande ligering produkter från Hi-C-bibliotek. Vi fokuserade på främjare av två skäl. Först arrangören-enhancer kontakter har visat sig vara avgörande för korrekt gen uttryck nivåer i ett flertal studier (se referenser ovan), och andra, som initiativtagare till stor del invarianta mellan celltyper, samma capture bete system kan användas att förhöra den reglerande kretsen över flera celltyper och villkor. Vår strategi bygger på in-lösning hybridisering av Hi-C-bibliotek med tiotusentals biotinylerade RNA 120mers komplement till arrangören-innehållande Hi-C ligering produkter och efterföljande fånga på streptividin-belagda magnetiska pärlor. Detta resulterar i PCHi-C-bibliotek med mycket mindre komplexitet jämfört med det ursprungliga Hi-C-biblioteket, med fokus på identifiering av fragment som är sammanskrivna att förslagsställare vid betydligt höga frekvenser.
Vi har använt PCHi-C i ett antal mänskliga och mus celltyper att bidra till en bättre förståelse av gen uttryck kontroll av avtäckning långväga distala arrangören samverkande regionerna med förmodad reglerande funktion, liksom icke-slumpmässigt Arrangören-promotorn kontakter i tredimensionella rymden av kärnan. Studierna har kartlagt hundratusentals arrangören-enhancer kontakter över många cell typer33,34,35,36,37,38, 39, identifierade Polycomb repressiva komplexa-medierad rumsliga genome organisation i mus embryonala stamceller7, visat storskaliga omkoppling av arrangören interactomes under celldifferentiering37, 38 , 39och länkade icke-kodande sjukdomsassocierade sekvens varianter till gen promotorer35.
PCHi-C är en idealisk metod för att kartlägga genome-wide ensemblen DNA-sekvenser som interagerar med initiativtagare. Relaterade metoder, såsom fånga Hi-C kontinuerlig genomisk regioner (se diskussion) är metoden för val att få högupplösta interaktion profiler för utvalda genomisk regioner. PCHi-C och fånga Hi-C är extremt lik från en experimentell synvinkel (den enda skillnaden är valet av capture system), så att de råd och riktlinjer som vi tillhandahåller är tillämpliga på båda tillvägagångssätten. Här presenterar vi en detaljerad beskrivning av PCHi-C. Vi redogöra för syftet och utformningen av en PCHi-C experiment, ger en steg för steg PCHi-C bibliotek generation protokollet och illustrera hur kvaliteten på PCHi-C-bibliotek kan övervakas vid olika steg i protokollet att ge högkvalitativa data.
Modulär design för arrangören fånga Hi-C
Arrangören fånga Hi-C är utformad för att specifikt berika Hi-C-bibliotek för interaktioner som initiativtagare. Dessa interaktioner utgör endast en delmängd av ligering produkter finns i ett Hi-C-bibliotek.
Fånga Hi-C kan lätt ändras för att berika Hi-C-bibliotek för genomisk region eller regioner av intresse genom att ändra fånga systemet. Fånga regioner kan vara kontinuerlig genomisk segment44,45,46,48, smakförstärkare som har identifierats i PCHi-C (omvänd fånga Hi-C35) eller DNAS jag överkänslig platser49 . Storleken på capture systemet kan justeras beroende på experimentell omfattning. Till exempel Dryden et al. rikta 519 bete fragment i tre gene öknar är associerad med bröst cancer44. Fånga systemet av Martin et al. riktar sig till både kontinuerlig genomisk segment (‘Region fånga’: 211 genomisk regioner totalt; 2 131 begränsning fragment) och valt initiativtagare (3,857 gen promotorer)45.
SureSelect bibliotek finns i olika storlek prisklasser: 1 kb till 499 kb (5,190 – 4.806), 500 kb till 2,9 Mb (5,190 – 4,816), och 3 Mb till 5,9 Mb (5,190 – 4,831). Som varje enskild fånga biotin-RNA är 120 nukleotider långa, dessa fånga system rymma upp till 4,158, 24,166 och 49,166 enskilda fånga sonder, respektive. Detta motsvarar 2 079, 12,083 och 24,583 riktade begränsning fragment, respektive (Observera att siffrorna för begränsning fragment är nedre gränser utifrån antagandet att två enskilda fånga sonder kan utformas för varje begränsning fragmentet — i verkligheten på grund av repetitiva sekvenser kommer detta inte vara fallet för varje begränsning fragmenteras (se även figur 1B, C), vilket resulterar i ett högre antal targetable begränsning fragment för ett konstant antal tillgängliga fånga sonder ).
Protokollet beskrivs här baseras på användningen av ett restriktionsenzym med en 6 bp erkännande webbplats att avslöja långväga interaktioner. Använda ett restriktionsenzym med en 4 bp erkännande webbplats för större upplösning av mer proximala interaktioner är också möjliga40,49.
Begränsningar av PCHi-C
En inneboende begränsning av alla kromosom konformation fånga analyser är att deras upplösning bestäms av enzymet begränsning används för bibliotek generation. Samspel som sker mellan DNA-element som ligger på samma begränsning fragmentet är osynliga för ‘C-type’ analyser. Ytterligare, i PCHi-C, i vissa fall mer än en transkription startwebbplats kan finnas på samma arrangören-innehållande begränsning fragmentet och PIRs i vissa fall hyser både aktiva och repressiva Histon märken, vilket gör det svårt att sätta fingret som reglerande element medla interaktioner, och förutsäga reglerande produktionen av promotorn interaktioner. Med 4 bp erkännande platser restriktionsenzym mildrar problemet men kommer på bekostnad av kraftigt ökad Hi-C bibliotek komplexitet (Hi-C-bibliotek som genereras med 4 bp erkännande webbplats restriktionsenzym är minst 100 gånger mer komplexa än Hi-C bibliotek genereras med 6 bp erkännande webbplats restriktionsenzym), och de tillhörande kostnaderna för nästa generations sekvensering.
En annan begränsning är att det nuvarande PCHi-C-protokollet kräver miljontals celler som utgångsmaterial, utgör hinder för analysen av promotorn interaktioner i sällsynta celltyper. En modifierad version av PCHi-C aktivera förhör av promotorn kontakter i cellpopulationer med 10 000 till 100 000 celler (till exempel celler under tidig embryoutveckling eller hematopoetiska stamceller) skulle därför vara ett värdefullt tillskott till fånga Hi-C verktygslåda.
Slutligen, liksom alla metoder som förlitar sig på formaldehyd fixering, PCHi-C registrerar bara interaktioner som är ‘frozen’ vid tidpunkten av fixering. Således, för att studera kinetik och dynamiken i promotorn interaktioner, metoder såsom super-resolution mikroskopi levande cellen krävs tillsammans med PCHi-C.
Metoder att dissekera rumsliga kromosom organisation med hög upplösning
Den stora komplexiteten i kromosomala interaktion bibliotek förbjuder tillförlitlig Produktidentifikationen interaktion mellan två särskilda begränsningar fragment med statistisk signifikans. För att kringgå problemet, har sekvens capture använts för att berika antingen Hi-C33,34,40,44 eller 3 C50,51 bibliotek för specifika interaktioner. Den stora fördelen med att använda Hi-C bibliotek över 3C bibliotek för anrikning steg är att Hi-C, till skillnad från 3C, innehåller ett berikande steg för äkta ligering produkter. Som en följd är procentsatsen av giltig läser PCHi-C-bibliotek cirka 10 gånger högre än i Capture-C bibliotek50, som innehöll cirka 5 – 8 procent giltig läser efter HiCUP filtrering. Sahlen et al. har direkt jämfört Capture-C till HiCap, som som PCHi-C använder Hi-C-bibliotek för att fånga berikning, i motsats till Capture-C som använder 3 C bibliotek. Överensstämmer med våra fynd, fann de att fånga-C bibliotek främst består av un-ligated fragment40. Dessutom hade HiCap bibliotek en högre komplexitet än Capture-C bibliotek40.
En variant av Capture-C, kallad nästa generations Capture-C52 NG Capture-C använder en oligo per begränsning fragment ände som tidigare fastställts i PCHi-C33,34, i stället för överlappande sonder används i original Capture-C protokollet50. Detta ökar andelen giltig läsningar jämfört Capture-C blygsamt, men NG Capture-C sysselsätter två sekventiella rundor av capture anrikning, och ett relativt högt antal PCR cykler (20 till 24 cykler totalt, jämfört med 11 cykler typiskt för PCHi-C), som oundvikligen resulterar i högre siffror sekvens dubbletter och lägre bibliotek komplexitet. I rättegång experiment under optimering av PCHi-C, fann vi att andelen unika (dvs inte dupliceras) läser par var endast omkring 15% när vi använde 19 PCR-cykler (13 cykler före fånga + 6 cykler efter capture; inga data anges), men optimering till ett lägre antal PCR cykler, ger normalt 75 – 90% unika Läs par. Således ökar minska antalet PCR cykler avsevärt mängden av informativ sekvensdata.
En nyligen metod kombinerar ChIP med Hi-C att fokusera på kromosomala interaktioner medierade av ett specifikt protein av intresse (HiChIP53). HiChIP data jämfört med ChIA-PET54, som är baserad på en liknande logik, och innehåller ett större antal informativa sekvensen läser, vilket möjliggör högre förtroende interaktion ringer53. Det ska bli mycket intressant att direkt jämföra de motsvarande HiChIP och fånga Hi-C datamängder de blir när tillgängliga (till exempel HiChIP med en antikropp mot de cohesin enhet Smc1a53 med fånga Hi-C för alla Smc1a bunden begränsning «««fragment) sida vid sida. En inneboende skillnad mellan dessa två synsätt är att fånga Hi-C inte är beroende av kromatin immunoprecipitation, och därför kan förhör kromosomala interaktioner oberoende proteinet beläggning. Detta möjliggör jämförelse av 3D genome organisation i närvaro eller frånvaro av specifika faktor bindande, som har använts för att identifiera PRC1 som en nyckelroll i regulering av mus ESC rumsliga genomets arkitektur7.
PCHi-C och GWAS
Genome-wide associationsstudier (GWAS) har visat att mer än 95% av sjukdomsassocierade sekvens varianter är belägna i icke-kodande regioner i genomet, ofta på stora avstånd till protein-kodande gener55. GWAS varianter är ofta finns i närheten av DNAS I överkänsliga platser, vilket är ett signum för sekvenser med potentiella lagstiftningsverksamhet. PCHi-C och fånga Hi-C har använts i stor utsträckning att länka initiativtagare till GWAS risk loci inblandad i bröst cancer44, kolorektal cancer48och autoimmun sjukdom35,45,46. En PCHi-C studie om 17 olika mänskliga hematopoetiska celler typer hittade SNP är associerad med autoimmun sjukdom berikades i PIRs i lymfoida celler, medan sekvens varianter associerade med trombocyter och röda blodkroppar specifika egenskaper återfanns huvudsakligen i den makrofager och erytroblaster, respektive35,56. Således, vävnadstyp specifika promotorn interactomes avslöjats av PCHi-C kan hjälpa till att förstå funktionen av icke-kodande sjukdomsassocierade sekvens varianter och identifiera nya potentiella sjukdomsgener för terapeutisk intervention.
Egenskaper hos arrangören-interagera regioner
Flera rader av bevis länk arrangören interactomes gen uttryck kontroll. Först flera PCHi-C studier har visat att genomisk regioner interagerar med främjare av (mycket) uttryckt gener är berikad med märken som är associerad med förstärkare aktivitet, till exempel H3K27 acetylering och p300 bindande33,34 , 37. Vi fann en positiv korrelation mellan gen uttryck nivå och antalet samverkande förstärkare, vilket tyder på att additiva effekter av enhancers resultera i ökat genuttryck nivåer34,35. Andra naturligt förekommande uttrycket kvantitativa loci (eQTLs) är berikad med PIRs som är anslutna till samma gener vars uttryck påverkas av de eQTLs35. För det tredje genom att integrera resa57 och PCHi-C data, fann Cairns et al. att resa reporter gener mappning till PIRs i mus ESCs visar starkare reporter genuttryck än reporter gener på integration platser i icke-arrangören-interagera regioner 58, som anger att PIRs besitter transkriptionell lagstiftningsverksamhet. Tillsammans, tyder dessa fynd på att arrangören interactomes avslöjats av PCHi-C i olika mus och mänsklig celltyper inkluderar viktiga reglerande moduler för gen uttryck kontroll.
Det är värt att notera att förstärkare utgör endast en liten del (~ 20%) av alla PIRs avslöjats av PCHi-C33,34. Andra PIRs kunde ha strukturella eller topologiska roller i stället för direkt transkriptionell tillsynsuppdrag. Det finns dock också bevis för att PCHi-C kan avslöja DNA-element med reglerande funktion som inte hamnen klassiskt enhancer märken. I en mänsklig lymfoida cell linje hittades BRD7 arrangören för att interagera med en region saknar enhancer märken som visades att inneha enhancer aktivitet i reporter gen analyser33. Reglerande element med liknande egenskaper kan vara rikligare än för närvarande uppskattas. Till exempel markerar en CRISPR-baserad skärm för regulatoriska DNA element identifierade omärkta reglerande element (åtgärder) som kontrollera genuttryck, men saknar enhancer59.
I andra fall har PIRs visat sig hysa kromatin-Märken associerade med transkriptionell förtryck. PIRs och samverkande initiativtagare bundna av PRC1 i mus ESCs var engagerade i ett omfattande rumsliga nätverk av bortträngda gener bär den repressiva Markera H3K27me37. I mänskliga lymfoblastoida celler, en avlägsen element interagerar med BCL6 promotorn förträngde transgenens reporter gen uttryck33, vilket tyder på att den kan fungera för att förtränga BCL6 transkription i sitt ursprungliga sammanhang.
PIRs berikad för beläggning av kromatin isolator protein SAP i mänskliga och sociala råden och nationella Europass-centrum37 kan representera ännu en klass av PIRs. Sammantaget tyder dessa resultat på att PIRs hyser en samling av genen tillsynsverksamhet ännu att präglas funktionellt.
The authors have nothing to disclose.
Vi tackar Valeriya Malysheva för kritisk läsning av manuskript och sakkunnig hjälp med figur 1. Detta arbete stöddes av medicinska forskningsrådet, UK (herr/L007150/1) och UK bioteknik och biologiska Sciences Research Council, UK (BB/J004480/1).
16% (vol/vol) paraformaldehyde solution | Agar Scientific | R1026 | |
Dulbecco's Modified Eagle Medium (DMEM) 1x | Life Technologies | 41965-039 | |
Fetal bovine serum (FBS) sterile filtered | Sigma | F9665 | |
Low-retention filter tips | Starlab | S1180-3810, S1180-1810, S1180-8810 and S1182-1830 | |
10x PBS pH 7.4 | Life Technologies | 70011-036 | |
Molecular biology grade water | Sigma-Aldrich | W4502 | |
1 M Tris-HCl pH 8.0 | Life Technologies | 15568-025 | |
IGEPAL CA-630 | Sigma-Aldrich | I8896 | |
5 M NaCl | Life Technologies | 24740-011 | |
Protease inhibitor cocktail (EDTA-free) | Roche Diagnostics | 11873580001 | |
Restriction buffer 2 (10x NEBuffer 2) | New England Biolabs | B7002 | |
DNA LoBind tube, 1.5 mL | Eppendorf | 0030 108.051 | |
DNA LoBind tube, 2 mL | Eppendorf | 30108078 | |
20% (wt/vol) SDS | Bio-Rad Laboratories | 161-0418 | |
20% (vol/vol) Triton X-100 | Sigma-Aldrich | T8787 | |
HindIII, 100 U/uL | New England Biolabs | R0104 | |
10 mM dCTP | Life Technologies | 18253-013 | |
10 mM dGTP | Life Technologies | 18254-011 | |
10 mM dTTP | Life Technologies | 18255-018 | |
0.4 mM Biotin-14-dATP | Life Technologies | 19524-016 | |
DNA polymerase I large (Klenow) fragment 5000 units/mL | New England Biolabs | M0210 | |
10x T4 DNA ligase reaction buffer | New England Biolabs | B0202 | |
100x 10mg/ml Bovine Serum Albumin | New England Biolabs | B9001 | |
T4 DNA ligase, 1 U/μL | Invitrogen | 15224-025 | |
RNase A | Roche | 10109142001 | |
Proteinase K, recombinant, PCR grade | Roche | 3115836001 | |
20 000×g 50 ml centrifuge tube | VWR | 525-0156 | |
0.5 M EDTA pH 8.0 | Life Technologies | 15575-020 | |
Phenol pH 8.0 | Sigma | P4557 | |
Phenol: Chloroform: Isoamyl Alcohol 25:24:1 | Sigma | P3803 | |
Sodium acetate pH 5.2 | Sigma | S7899 | |
Quant-iT PicoGreen | Invitrogen | P7589 | |
QIAquick Gel Extraction Kit | Qiagen | 28704 | |
QIAquick PCR Purification Kit | Qiagen | 28104 | |
Restriction buffer 2.1 (10x NEBuffer 2.1) | New England Biolabs | B7202 | |
NheI, 100U/uL | New England Biolabs | R0131 | |
Micro TUBE AFA Fiber Pre-slit snap cap 6x16mm vials | Covaris | 520045 | For sonication |
SPRI beads (Agencourt AMPure XP) | Beckman Coulter | A63881 | |
Dynabeads MyOne Streptavidin C1 beads | Invitrogen | 65001 | |
Tween 20 | Sigma | P9416 | |
10 mM dATP | Life Technologies | 18252-015 | |
T4 DNA polymerase 3000 units/mL | New England Biolabs | M0203 | |
T4 PNK 10000 units/mL | New England Biolabs | M0201 | |
Klenow exo minus 5000 units/mL | New England Biolabs | M0212 | |
Quick ligation reaction buffer | New England Biolabs | B6058 | |
NEB DNA Quick ligase | New England Biolabs | M2200 | |
PE adapter 1.0 (5'-P-GATCGGAAGAGCGGTTCAGC AGGAATGCCGAG-3') |
Illumina | ||
PE adapter 2.0 (5'-ACACTCTTTCCCTACACGACGCT CTTCCGATCT-3') |
Illumina | ||
NEB Phusion PCR kit | New England Biolabs | M0530 | |
PE PCR primer 1.0 (5'-AATGATACGGCGACCACCGA GATCTACACTCTTTCCCTAC ACGACGCTCTTCCGATCT-3') |
Illumina | ||
PE PCR primer 2.0 (5'-CAAGCAGAAGACGGCATACGA GATCGGTCTCGGCATTCCT GCTGAACCGCTCTTCCGATCT-3') |
Illumina | ||
PCR strips | Agilent Technologies | 410022 and 401425 | |
SureSelect SSEL TE Reagent ILM PE full adaptor kit | Agilent Technologies | 931108 | |
SureSelect custom 3-5.9 Mb library | Agilent Technologies | 5190-4831 | custom design mouse or human PCHi-C system |
Dynabeads MyOne Streptavidin T1 beads | Invitrogen | 65601 | |
E220 high-performance focused ultra-sonicator | Corvaris | E220 |