DNA regulerende elementer, såsom smagsforstærkere, kontrollerer genekspression ved fysisk at kontakte target gen initiativtagere, ofte gennem langtrækkende kromosom vekselvirkninger der spænder over stor genomisk afstande. Promotor fange Hi-C (PCHi-C) identificerer betydningsfulde vekselvirkninger mellem projektledere og distale regioner, gør det muligt for tildelingen af potentielle regulerende sekvenser til deres mål gener.
Den tredimensionale organisation af genomet er knyttet til dens funktion. For eksempel, styre regulerende elementer såsom transcriptional smagsforstærkere den spatio-temporale udtryk for deres mål gener gennem fysisk kontakt, ofte bridging betydeligt (i nogle tilfælde hundredvis af kilobases) genomisk afstande og omgåelse nærliggende gener. Det menneskelige genom havne en anslået en million smagsforstærkere, hvoraf langt størstedelen har ukendte gen mål. Tildele distale lovgivningsmæssige områder til deres mål gener er således afgørende at forstå gen expression kontrol. Vi udviklede promotor fange Hi-C (PCHi-C) til at aktivere genome-wide påvisning af distale promotor-interagere regioner (PIRs), for alle projektledere i et enkelt eksperiment. I PCHi-C, er meget komplekse Hi-C biblioteker specifikt beriget til promotor sekvenser gennem i løsning hybrid udvalg med tusinder af biotinylated RNA lokkemad supplement til enderne af alle promotor-holdige begrænsning fragmenter. Formålet er at derefter pull-down promotor sekvenser og deres hyppig interaktion partnere såsom smagsforstærkere og andre potentielle regulerende elementer. Efter høj overførselshastighed parret ende sekventering påføres en statistisk test hver promotor-forbundet begrænsning fragment at identificere væsentlige PIRs på fragment begrænsningsniveau. Vi har brugt PCHi-C til at generere en atlas af langtrækkende promotor interaktioner i snesevis af mennesker og mus celletyper. Disse promotor interactome kort har bidraget til en større forståelse af pattedyr gen expression kontrol ved at tildele formodede lovgivningsmæssige områder til deres mål gener og afslørende præferentielle rumlige promotor-promotor interaktion netværk. Denne information også har høj relevans til forståelsen af menneskets genetiske sygdom og identifikation af potentielle sygdomsgener, ved at sammenkæde ikke-kodende sygdom-associerede sekvens varianter i eller i nærheden af styringsforløb til deres mål gener.
Akkumulere beviser tyder på, at den tredimensionale organisation af genomet spiller en vigtig funktionelle rolle i en række nukleare processer, herunder gen aktivering1,2,3, undertrykkelse4 ,5,6,7,8, rekombination9,10, DNA reparation11, DNA replikation12,13, og cellulære gulne14. Fjern smagsforstærkere er fundet i geografisk nærhed til initiativtagerne de regulerer15,16,17, som er afgørende for korrekt spatio-temporale gen expression kontrol. Forstærker sletninger vis at distale smagsforstærkere er afgørende for target gen transskription18,19,20,21,22, og “tvungen kromatin looping” viser, manipuleret tethering mellem en forstærker og dens mål initiativtager i Ulla locus er tilstrækkelig til at drive transcriptional aktivering23. Yderligere, genome rearrangementer, der bringer gener under kontrol af ektopiske smagsforstærkere kan resultere i uhensigtsmæssige genaktivering og sygdom24,25,26. Sammen, illustrerer disse eksempler at promoter-forstærker interaktioner er afgørende for gen kontrol og kræver stram regulering at sikre relevant genekspression. Menneskelige og mus genomer skønnes hver havnen omkring en million smagsforstærkere. For langt de fleste af disse smagsforstærkere, target gener er ukendt, og ‘regler for magtanvendelse’ mellem projektledere og smagsforstærkere er dårligt forstået. Tildele transcriptional smagsforstærkere til deres mål gener således fortsat en stor udfordring i afkodningen pattedyr gen expression kontrol.
Blevet revolutioneret vores forståelse af tre-dimensionelle genom arkitektur af indførelsen af 3C27 (kromosom kropsbygning capture) og dens varianter28,29,30,31 . Den mest magtfulde af disse teknikker, Hi-C (høj overførselshastighed kromosom kropsbygning capture) er designet til at identificere den hele ensemble af kromosom vekselvirkninger i en celle population. Hej-C biblioteker, typisk genereres fra millioner af celler, er yderst komplekse med en anslået 1011 uafhængige ligatur produkter mellem ~ 4 kb fragmenter i det menneskelige genom32. Som en konsekvens, pålidelig og reproducerbar identifikation af interaktioner mellem individuelle begrænsning fragmenter (f.eks. dem, der indeholder en promotor eller forstærker) fra er Hi-C data ikke mulig, medmindre Hi-C biblioteker udsættes for ultra-dybe sekventering, der er ikke en økonomisk levedygtig løsning for laboratorier forbereder Hi-C biblioteker rutinemæssigt. For at omgå denne mangel, udviklet vi promotor fange Hi-C for at specifikt berige promotor-holdige ligatur produkter fra Hi-C biblioteker. Vi fokuserede på initiativtagerne af to grunde. Først, promoter-forstærker kontakter har vist sig at være afgørende for ordentlig gen expression niveauer i talrige undersøgelser (Se henvisninger ovenfor), og for det andet, som initiativtagere er i vid udstrækning invariant mellem celletyper, det samme fange agn system kan bruges til at forhøre den lovgivningsmæssige kredsløb på tværs af flere celletyper og betingelser. Vores tilgang bygger på-løsning hybridisering af Hi-C biblioteker med titusinder af biotinylated RNA 120mers supplerer promotor-holdige Hi-C ligatur produkter og efterfølgende opsamling på streptavidin-belagt magnetiske perler. Dette resulterer i PCHi-C biblioteker med meget reduceret kompleksitet i forhold til den oprindelige Hi-C library, fokuserer kun på identifikation af fragmenter, der er forbundet til projektledere på betydeligt høje frekvenser.
Vi har brugt PCHi-C i en række menneskelige og mus celletyper til at bidrage til en bedre forståelse af gen expression kontrol af afsløring langtrækkende distale promotor interagerende regioner med formodede regulativfunktionen, såvel som ikke-tilfældige promotor-initiativtageren kontakter i de tre-dimensionelle rum af kernen. Undersøgelserne har kortlagt hundredtusindvis af promoter-forstærker kontakter på tværs af adskillige celle typer33,34,35,36,37,38, 39, identificeret Polycomb Repressive komplekse-medieret rumlige genom organisation i mus embryonale stamceller7, påvist store rewiring af promotor interactomes under Celledifferentiering37, 38 , 39og sammenkædet ikke-kodende sygdom-associerede sekvens varianter til gen initiativtagere35.
PCHi-C er en velegnet metode til at knytte genome-wide ensemble af DNA-sekvenser interagere med initiativtagere. Relaterede tilgange, såsom fange Hi-C af kontinuerlig genomisk områder (Se diskussion) er metoden for valget mellem at få høj opløsning interaktion profiler for valgte genomisk regioner. PCHi- og fange Hi-C er meget lignende fra en eksperimentel synspunkt (den eneste forskel er valget af capture system), således at de råd og retningslinjer vi leverer er gældende for begge tilgange. Vi præsenterer her, en detaljeret beskrivelse af PCHi-C. Vi skitsere rationale og design af et PCHi-C eksperiment, giver en trinvis PCHi-C bibliotek generation protokol og illustrere, hvordan kvaliteten af PCHi-C biblioteker kan kontrolleres på forskellige trin i protokollen til udbytte data af høj kvalitet.
Modulære design af promotor fange Hi-C
Promotor fange Hi-C er designet til specifikt berige Hi-C biblioteker for interaktioner, der vedrører projektledere. Disse interaktioner omfatter kun en delmængde af ligatur produkter findes i en Hi-C-biblioteket.
Capture Hi-C kan let ændres til at berige Hi-C biblioteker for genomisk region eller regioner af interesse ved at ændre capture-system. Capture regioner kan være kontinuerlig genomisk segmenter44,45,46,48, smagsforstærkere, der er blevet identificeret i PCHi-C (Reverse fange Hi-C-35), eller DNase overfølsomme sites49 . Størrelse ordningens capture kan justeres alt efter de eksperimentelle anvendelsesområde. For eksempel, Dryden mfl. målrette 519 agn fragmenter i tre gen ørkener forbundet med bryst kræft44. Capture-system af Martin mfl. mål begge kontinuerlig genomisk segmenter (“Region Capture”: 211 genomisk regioner i alt, 2,131 begrænsning fragmenter) og valgt initiativtagere (3,857 gen initiativtagere)45.
SureSelect biblioteker er tilgængelige i forskellige intervaller: 1 kb til 499 kb (5.190 – 4,806), 500 kb til 2,9 Mb (5.190 – 4,816), og 3 Mb til 5,9 Mb (5.190 – 4,831). Som hver enkelte fange biotin-RNA er 120 nukleotider lange, disse erobre systemer rumme et maksimum af 4,158, 24,166 og 49,166 individuelle fange sonder, henholdsvis. Dette svarer til 2,079, 12,083 og 24,583 målrettede begrænsninger småstykker, henholdsvis (Bemærk, at tallene for begrænsning fragmenter er nedre grænser baseret på den antagelse, at to individuelle capture sonder kan være konstrueret til enhver begrænsning Fragmentet — i virkeligheden på grund af gentagne sekvenser vil dette ikke være tilfældet for hver begrænsning fragment (Se også figur 1B, C), hvilket resulterer i et højere antal markedssegment begrænsning fragmenter for et konstant antal tilgængelige capture sonder ).
Protokollen beskrevet her er baseret på anvendelse af en restriktion enzym med et 6 bp anerkendelse websted at afdække langtrækkende interaktioner. Ved hjælp af en begrænsning enzym med en 4 bp anerkendelse websted for større opløsning af mere proksimale interaktioner er også mulige40,49.
Begrænsninger af PCHi-C
En iboende begrænsning af alle kromosom kropsbygning capture assays er, at deres beslutning bestemmes af begrænsning enzym brugt til biblioteket generation. Samspil, der opstår mellem DNA elementer placeret på den samme begrænsning fragment er usynlige for ‘C-type’ assays. Yderligere, i PCHi-C, i nogle tilfælde mere end én transskription startstedet kan være placeret på det samme promotor-holdige begrænsning fragment, og PIRs i nogle tilfælde havnen både aktive og undertrykkende Histon mærker, hvilket gør det vanskeligt at lokalisere som regulerende elementer mægle samspillet, og at forudsige den regulerende output af promotor interaktioner. Ved hjælp af restriktionsenzymer med 4 bp genkendelsessekvenser afbøder problemet men kommer på bekostning af voldsomt forøgede Hi-C bibliotek kompleksitet (Hi-C biblioteker genereret med 4 bp anerkendelse websted restriktionsenzymer er mindst 100 gange mere komplekse end Hi-C biblioteker genereret med 6 bp anerkendelse websted restriktionsenzymer), og de dermed forbundne omkostninger for næste generation sequencing.
En anden begrænsning er, at den nuværende PCHi-C protokollen kræver millioner af celler som udgangspunkt materiale, udelukker analyse af promotor interaktioner i sjældne celletyper. En modificeret version af PCHi-C hen til muliggøre afhøring af initiativtageren kontakter i cellepopulationer med 10.000 til 100.000 celler (f.eks celler under tidlige embryonale udvikling eller hæmatopoietisk stamceller) ville derfor være en værdifuld tilføjelse til fange Hej-C værktøjskasse.
Endelig, ligesom alle metoder, der er afhængige af formaldehyd fiksering, PCHi-C kun registrerer interaktioner, der er» frosset» for tidspunkt af fiksering. Således, for at studere kinetik og dynamik af promotor interaktioner, metoder såsom super-resolution levende celle mikroskopi er kræves sammen med PCHi-C.
Metoder til at dissekere rumlige kromosom organisation med høj opløsning
Den enorme kompleksitet kromosomale interaktion biblioteker forbyder den pålidelige Materielidentifikationen interaktion mellem to specifikke begrænsning fragmenter med Statistisk signifikans. For at omgå dette problem, er sekvens capture blevet brugt til at berige enten Hi-C33,34,40,44 eller 3 C50,51 biblioteker for specifikke interaktioner. Den store fordel ved at bruge Hi-C-biblioteker over 3C for berigelse skridt er, at Hi-C, i modsætning til 3C, omfatter en berigelse skridt for ægte ligatur produkter. Som en konsekvens, er procentdelen af gyldig læser i PCHi-C biblioteker ca 10-fold højere end i Capture-C biblioteker50, som indeholdt omkring 5-8% gyldig læser efter HiCUP filtrering. Sahlen et al. har direkte sammenlignet Capture-C til HiCap, der ligesom PCHi-C bruger Hi-C biblioteker til fange berigelse, i modsætning til Capture-C, som bruger 3 C-biblioteker. I overensstemmelse med vores resultater, de fandt at opsamling-C biblioteker er hovedsageligt komponeret af un-sammenskrevne fragmenter40. Derudover havde HiCap biblioteker en højere kompleksitet end Capture-C biblioteker40.
En variant af Capture-C, kaldes næste generation Capture-C52 (NG Capture-C) bruger en oligo pr. begrænsning fragment slutningen, som tidligere etableret i PCHi-C33,34, i stedet for overlappende sonder anvendes i oprindelige Capture-C protokollen50. Dette øger procentdelen af gyldig læsninger i forhold til Capture-C beskedent, men NG Capture-C beskæftiger to sekventielle runder af capture berigelse og et relativt højt antal PCR-cykler (20-24 cyklusser i alt, sammenlignet med 11 cyklusser typisk for PCHi-C), som uundgåeligt medfører højere antal sekvens dubletter og lavere bibliotek kompleksitet. I retssag eksperimenter under optimering af PCHi-C, fandt vi, at den procentvise andel af unikke (dvs. ikke duplikeres) læse par var omkring kun 15% når vi brugte 19 PCR cyklusser (13 cyklusser pre fange + 6 cyklusser post capture; data ikke vist), men Optimering til et lavere antal PCR cyklusser, udbytter typisk 75-90% unikke Læs par. Således, at reducere antallet af PCR cyklusser betydeligt øger mængden af informative sekvens data.
En nyere metode kombinerer ChIP med Hi-C at fokusere på kromosom vekselvirkninger medieret af et specifikt protein af interesse (HiChIP53). I forhold til ChIA-PET54, som er baseret på en lignende rationale, indeholder HiChIP data et større antal informative sekvens læser, giver mulighed for højere tillid interaktion kræver53. Det vil være meget interessant at direkte sammenligne de tilsvarende HiChIP og fange Hi-C datasæt de bliver når tilgængelige (for eksempel HiChIP ved hjælp af en antistof mod cohesin enhed Smc1a53 med fange Hi-C for alle Smc1a bundet begrænsning fragmenter) side om side. En iboende forskel mellem disse to tilgange er at fange Hi-C ikke stole på kromatin immunoprecipitation, og derfor er i stand til at afhøre kromosom vekselvirkninger uanset protein belægning. Dette giver mulighed for sammenligning af 3D genom organisation i tilstedeværelse eller fravær af specifik faktor binding, som er blevet brugt til at identificere PRC1 som et centralt regulator af musen ESC rumlige genom arkitektur7.
PCHi-C og GWAS
Genome-wide association studier (GWAS) har afsløret, at mere end 95% af sygdom-associerede sekvens varianter er beliggende i ikke-kodende regioner i genomet, ofte på store afstande til protein-kodning gener55. GWAS varianter er ofte fundet i umiddelbar nærhed af DNase jeg overfølsom websteder, som er kendetegnende for sekvenser med potentielle regulerende aktivitet. PCHi- og fange Hi-C har været brugt flittigt at linke initiativtagere til GWAS risiko loci impliceret i bryst kræft44, kolorektal cancer48og autoimmun sygdom35,45,46. En PCHi-C undersøgelse af 17 forskellige menneskelige hæmatopoietisk celle typer fundet SNPs forbundet med autoimmun sygdom blev beriget med PIRs i lymfoide celler, hvorimod sekvens varianter tilknyttet trombocyttal og røde blodlegemer specifikke træk fandtes overvejende de makrofager og erythroblasts, henholdsvis35,56. Således vævstype specifikke promotor interactomes afsløret af PCHi-C kan bidrage til at forstå funktionen af ikke-kodende sygdom-associerede sekvens varianter og identificere nye potentielle sygdomsgener for terapeutisk intervention.
Karakteristik af promotor-interagere regioner
Flere linjer af beviser link promotor interactomes gen expression kontrol. Først, flere PCHi-C undersøgelser har vist, at genomisk regioner interagere med initiativtagere til (meget) udtrykte gener er beriget med marks tilknyttet enhancer aktivitet, som H3K27 acetylation og p300 bindende33,34 , 37. vi fandt en positiv korrelation mellem gen expression niveau og antallet af interagerende smagsforstærkere, tyder på, at tilsætningsstoffet effekter af smagsforstærkere resultere i øget genekspression niveauer34,35. For det andet naturligt forekommende udtryk kvantitative træk loci (eQTLs) er beriget med PIRs, der er forbundet med de samme gener, hvis udtryk påvirkes af eQTLs35. For det tredje ved at integrere tur57 og PCHi-C data, fandt Cairns et al. tur reporter gener kortlægning til PIRs i mus sektorrådene viser stærkere reporter genekspression end reporter gener på integration websteder, i ikke-promotor-interagere regioner 58, der angiver, at PIRs besidder transkriptionel regulering aktivitet. Sammen, tyder disse resultater på, at initiativtageren interactomes afsløret af PCHi-C i forskellige mus og menneskelige celletyper omfatte centrale lovgivningsmæssige moduler til gen expression kontrol.
Det er værd at bemærke, at smagsforstærkere udgør kun en lille brøkdel (~ 20%) af alle PIRs afdækket ved PCHi-C33,34. Andre PIRs kunne have strukturelle eller topologiske roller snarere end direkte transcriptional regulerende funktioner. Men der er også beviser for at PCHi-C kan afdække DNA elementer med regulerende funktion, der ikke havnen klassisk enhancer mærker. I en menneskelig lymfoide cellelinie, blev BRD7 selskabet fundet til at interagere med en region forstærker mærker, der blev vist sig at besidde enhancer aktivitet i reporter gen assays33. Regulerende elementer med lignende karakteristika kan være mere rigelig end i øjeblikket værdsat. For eksempel, markerer en CRISPR-baseret skærm for regulerende DNA elementer identificerede umarkerede regulerende elementer (foranstaltninger), kontrollerer genekspression, men er forstærker59.
I andre tilfælde har PIRs vist sig at havnen kromatin marks tilknyttet transcriptional undertrykkelse. PIRs og interagerende initiativtagere bundet af PRC1 i mus sektorrådene var involveret i et omfattende fysisk netværk af undertrykt gener forsynet med de repressive mark H3K27me37. I humane lymphoblastoid celler, en fjern element interagere med BCL6 promotor undertrykt transgen reporter gen expression33, tyder på, at det kan fungere for at undertrykke BCL6 transskription i sin oprindelige kontekst.
PIRs beriget for belægning af kromatin isolator protein CTCF i menneskelige og sociale råd og NECs37 kan udgøre endnu en klasse af PIRs. Kollektivt, tyder disse resultater på, at PIRs havnen en samling af genet reguleringsvirksomhed endnu at karakteriseres funktionelt.
The authors have nothing to disclose.
Vi takker Valeriya Malysheva for kritisk læsning af manuskript og eksperthjælp med figur 1. Dette arbejde blev støttet af den medicinske Forskningsråd, UK (hr./L007150/1) og UK bioteknologi og biologiske Sciences Research Council, UK (BB/J004480/1).
16% (vol/vol) paraformaldehyde solution | Agar Scientific | R1026 | |
Dulbecco's Modified Eagle Medium (DMEM) 1x | Life Technologies | 41965-039 | |
Fetal bovine serum (FBS) sterile filtered | Sigma | F9665 | |
Low-retention filter tips | Starlab | S1180-3810, S1180-1810, S1180-8810 and S1182-1830 | |
10x PBS pH 7.4 | Life Technologies | 70011-036 | |
Molecular biology grade water | Sigma-Aldrich | W4502 | |
1 M Tris-HCl pH 8.0 | Life Technologies | 15568-025 | |
IGEPAL CA-630 | Sigma-Aldrich | I8896 | |
5 M NaCl | Life Technologies | 24740-011 | |
Protease inhibitor cocktail (EDTA-free) | Roche Diagnostics | 11873580001 | |
Restriction buffer 2 (10x NEBuffer 2) | New England Biolabs | B7002 | |
DNA LoBind tube, 1.5 mL | Eppendorf | 0030 108.051 | |
DNA LoBind tube, 2 mL | Eppendorf | 30108078 | |
20% (wt/vol) SDS | Bio-Rad Laboratories | 161-0418 | |
20% (vol/vol) Triton X-100 | Sigma-Aldrich | T8787 | |
HindIII, 100 U/uL | New England Biolabs | R0104 | |
10 mM dCTP | Life Technologies | 18253-013 | |
10 mM dGTP | Life Technologies | 18254-011 | |
10 mM dTTP | Life Technologies | 18255-018 | |
0.4 mM Biotin-14-dATP | Life Technologies | 19524-016 | |
DNA polymerase I large (Klenow) fragment 5000 units/mL | New England Biolabs | M0210 | |
10x T4 DNA ligase reaction buffer | New England Biolabs | B0202 | |
100x 10mg/ml Bovine Serum Albumin | New England Biolabs | B9001 | |
T4 DNA ligase, 1 U/μL | Invitrogen | 15224-025 | |
RNase A | Roche | 10109142001 | |
Proteinase K, recombinant, PCR grade | Roche | 3115836001 | |
20 000×g 50 ml centrifuge tube | VWR | 525-0156 | |
0.5 M EDTA pH 8.0 | Life Technologies | 15575-020 | |
Phenol pH 8.0 | Sigma | P4557 | |
Phenol: Chloroform: Isoamyl Alcohol 25:24:1 | Sigma | P3803 | |
Sodium acetate pH 5.2 | Sigma | S7899 | |
Quant-iT PicoGreen | Invitrogen | P7589 | |
QIAquick Gel Extraction Kit | Qiagen | 28704 | |
QIAquick PCR Purification Kit | Qiagen | 28104 | |
Restriction buffer 2.1 (10x NEBuffer 2.1) | New England Biolabs | B7202 | |
NheI, 100U/uL | New England Biolabs | R0131 | |
Micro TUBE AFA Fiber Pre-slit snap cap 6x16mm vials | Covaris | 520045 | For sonication |
SPRI beads (Agencourt AMPure XP) | Beckman Coulter | A63881 | |
Dynabeads MyOne Streptavidin C1 beads | Invitrogen | 65001 | |
Tween 20 | Sigma | P9416 | |
10 mM dATP | Life Technologies | 18252-015 | |
T4 DNA polymerase 3000 units/mL | New England Biolabs | M0203 | |
T4 PNK 10000 units/mL | New England Biolabs | M0201 | |
Klenow exo minus 5000 units/mL | New England Biolabs | M0212 | |
Quick ligation reaction buffer | New England Biolabs | B6058 | |
NEB DNA Quick ligase | New England Biolabs | M2200 | |
PE adapter 1.0 (5'-P-GATCGGAAGAGCGGTTCAGC AGGAATGCCGAG-3') |
Illumina | ||
PE adapter 2.0 (5'-ACACTCTTTCCCTACACGACGCT CTTCCGATCT-3') |
Illumina | ||
NEB Phusion PCR kit | New England Biolabs | M0530 | |
PE PCR primer 1.0 (5'-AATGATACGGCGACCACCGA GATCTACACTCTTTCCCTAC ACGACGCTCTTCCGATCT-3') |
Illumina | ||
PE PCR primer 2.0 (5'-CAAGCAGAAGACGGCATACGA GATCGGTCTCGGCATTCCT GCTGAACCGCTCTTCCGATCT-3') |
Illumina | ||
PCR strips | Agilent Technologies | 410022 and 401425 | |
SureSelect SSEL TE Reagent ILM PE full adaptor kit | Agilent Technologies | 931108 | |
SureSelect custom 3-5.9 Mb library | Agilent Technologies | 5190-4831 | custom design mouse or human PCHi-C system |
Dynabeads MyOne Streptavidin T1 beads | Invitrogen | 65601 | |
E220 high-performance focused ultra-sonicator | Corvaris | E220 |