Vi presenterer en protokoll for å identifisere funksjonelle implikasjoner av ikke-koding varianter identifisert av Genova-brede foreningen studier (GWAS) ved hjelp av tredimensjonale kromatin interaksjoner.
Genova-brede forening studier (GWAS) har identifisert hundrevis av genomisk Loci som er forbundet med menneskelige egenskaper og sykdom. Imidlertid, fordi flertallet av det Genova-bred betydelig (GWS) Loci falle på det ingen-kodingen Genova, det funksjonell innvirkningen av mange være igjen ubekjent. Tredimensjonale kromatin interaksjoner identifisert av hi-C eller dets derivater kan gi nyttige verktøy for å kommentere disse Loci ved å koble ikke-koding varianter til deres nyttige gener. Her skisserer vi en protokoll for å kartlegge GWAS ikke-koding varianter til deres antatte gener ved hjelp av Alzheimers sykdom (AD) GWAS og Hi-C datasett fra humant voksen hjernevev. Antatte årsakssammenheng enkelt-nukleotid polymorfismer (SNPs) identifiseres ved anvendelse av fin-kartlegging algoritmer. SNPs blir deretter kartlagt til deres antatte mål gener ved hjelp av Enhancer-promoter interaksjoner basert på Hi-C. Det resulterende genet sett representerer AD risiko gener, som de er potensielt regulert av AD risiko varianter. For å samle ytterligere biologisk innsikt i molekylære mekanismer underliggende AD, karakteriserer vi AD risiko gener ved hjelp av utviklingsmessige hjernen uttrykk data og hjernen enkelt celle uttrykk profiler. Denne protokollen kan utvides til alle GWAS og Hi-C datasett for å identifisere antatte mål gener og molekylære mekanismer underliggende ulike menneskelige egenskaper og sykdommer.
Genova-Wide foreningen studier (GWAS) har spilt en avgjørende rolle i å avsløre det genetiske grunnlaget for en rekke menneskelige egenskaper og sykdommer. Denne stor-skalaen genotyperingteknologi har avdekket tusenvis av genomisk varianter forbundet med fenotyper oppstiller fra høyde å schizofreni risk. Til tross for den enorme suksessen til GWAS for å identifisere sykdom og egenskap forbundet med Loci, har imidlertid en mekanistisk forståelse av hvordan disse variantene bidrar til fenotype, vært utfordrende fordi de fleste fenotype assosierte variantene bor i ikke-koding brøkdel av den menneskelige Genova. Siden disse variantene ofte overlapper med anslåtte regulatoriske elementer, vil de sannsynligvis endre transcriptional kontroll over et nærliggende gen. Men ikke-koding Loci kan påvirke transkripsjon av gener på lineær avstander som overstiger en megabase, noe som gjør genene påvirkes av hver variant vanskelig å identifisere. Tredimensjonal (3D) kromatin struktur spiller en viktig rolle i formidling forbindelser mellom fjernt regulatoriske Loci og gen arrangører og kan brukes til å identifisere gener berørt av fenotype knyttet enkelt-nukleotid polymorfismer (SNPs).
Gen regulering er formidlet av en kompleks prosess, som innebærer Enhancer aktivisering og kromatin loop formasjon som fysisk koble enhancers til genet arrangører som transcriptional maskiner kan rettes1,2,3. Fordi kromatin looper ofte spenner over flere hundre kilobases (KB), detaljerte kart over 3D kromatin arkitektur er nødvendig for å dechiffrere genet regulatoriske mekanismer. Flere kromatin konformasjon fangst teknologier har blitt oppfunnet for å identifisere 3D kromatin arkitektur4. Blant disse teknologiene, Hi-C gir den mest omfattende arkitekturen, som det fanger opp Genova-brede 3D kromatin interaksjon profiler. Hi-C datasett har blitt raskt tilpasset til å tolke ikke-koding Genova-Wide signifikant (GWS) Loci5,6,7,8,9,10,11,12,13, som det kan koble ikke-koding varianter til deres antatte mål gener basert på kromatin samspill profiler.
I denne artikkelen skisserer vi en protokoll for å beregningsmessig forutsi antatte mål gener av GWAS risiko varianter ved hjelp av kromatin samhandlings profiler. Vi bruker denne protokollen for å kartlegge AD GWS Loci14 til deres mål gener ved hjelp av hi-C datasett i den voksne menneskelige hjernen9. Den resulterende AD risiko gener er preget av andre funksjonelle genomisk datasett som inkluderer enkelt celle transcriptomic og utviklingsmessige uttrykks profiler.
Her beskriver vi et analytisk rammeverk som kan brukes til å funksjonelt kommentere GWS Loci basert på posisjons kartlegging og kromatin interaksjoner. Denne prosessen omfatter flere trinn (for mer informasjon se denne anmeldelsen13). For det første, gitt det kromatin vekselvirkningen profiler er høylig cellen-type spesifikk, Hei-C data oppnådd fra det passende cellen/tissue typer det best fange underliggende Biology av lidelsen nødvendig å bli anvendt. Gitt at AD er en nevrodegenerative lidelse, brukte vi voksen hjernen Hi-C data9 til å kommentere GWS Loci. For det andre har hvert GWS geometriske har ofte opp til hundrevis av SNPs som er forbundet med trekket på grunn av forbindelses hormonelle (ld), så det er viktig å få antatte årsakssammenheng (“troverdig”) SNPs av beregningsmessig forutsi årsakssammenheng gjennom bruk av fin-kartlegging algoritmer21,22 eller eksperimentelt testing regulatoriske aktiviteter ved hjelp av høy gjennomstrømming tilnærminger som massivt parallell reporter analyser (MPRA)23 eller selv-transkribere aktive regulatoriske området sekvensering ( STARR-SEQ)24. For arbeidet som er beskrevet her, brukte vi troverdig SNPs rapportert i Jansen et al.14. For det tredje er arrangøren og exonic SNPs kommentert basert på posisjons kartlegging. Vi brukte en enkel posisjons kartlegging strategi der SNPs ble kartlagt til genene når de overlappes medarrangører (definert som 2 KB oppstrøms av transkripsjon Start site) eller exoner. Imidlertid kan denne tilnærmingen bli ytterligere utarbeidet ved å vurdere de funksjonelle konsekvensene av exonic SNPs, for eksempel om SNP induserer tull mediert forfall, missense variasjon, eller tull variasjon. Fjerde, kromatin samspill profiler fra den aktuelle vev/celle type kan brukes til å tildele SNPs til sine antatte mål gener basert på fysisk nærhet. Vi brukte samhandlings profiler forankret til arrangører, men vi kan videreutvikle eller utvide samhandlings profilene ved å ta forbedrings aktiviteter (veiledet av histone H3 K27 acetylering eller kromatin tilgjengelighet) eller exonic interaksjoner i betraktning. Ettall betydelig betraktning i denne forarbeide er å bruk gjennomført Human Genova bygge. For eksempel, hvis genomisk posisjoner er ikke basert på hg19 (dvs. hg18 eller hg38), en passende versjon av referansen Genova skal innhentes eller sammendraget statistikken må konverteres til hg19 ved hjelp av liftover25.
Vi brukte denne rammen for å identifisere antatte mål gener for AD GWAS, tilordne 284 SNPs til 112 AD risiko gener. Ved hjelp av utviklings uttrykks profiler26 og celle-type spesifikke uttrykks profiler9, vi da viste at dette genet sett var forenlig med det som er kjent om ad patologi, avslører celletyper (mikroglia), biologiske funksjoner (immunrespons og amyloid Beta), og forhøyet risiko på alder.
Mens vi presenterte et rammeverk som delineates potensielle mål gener av AD og dens underliggende biologi, er det av notatet at Hi-C basert Merknad kan utvides til å kommentere noen ikke-koding variasjon. Som mer hele-Genova sekvensering data blir tilgjengelig og vår forståelse om ikke-koding sjelden variasjon vokser, Hi-C vil gi en viktig ressurs for tolkning av sykdom-tilknyttede genetiske varianter. En samling av hi-C ressurser Hentet fra flere vev og celletyper vil være derfor avgjørende for å tilrettelegge en bred anvendelse av dette rammeverket for å få biologisk innsikt i ulike menneskelige egenskaper og sykdom.
The authors have nothing to disclose.
Dette arbeidet ble støttet av NIH Grant R00MH113823 (til HW) og R35GM128645 (til D.H.P.), NARSAD Young etterforsker Award (til HW), og SPARK stipend fra Simons Foundation Autism Research Initiative (SFARI, til NM og HW).
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static-content.springer.com/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |