Vi præsenterer en protokol til at identificere funktionelle konsekvenser af ikke-kodning varianter identificeret ved genomdækkende Association undersøgelser (GWAS) ved hjælp af tredimensionelle kromatin interaktioner.
Genomstudier (GWAS) har med succes identificeret hundredvis af genomisk loci, der er forbundet med menneskelige træk og sygdom. Men da størstedelen af det Genome-store signifikante (GWS) loci falder på det ikke-kodende genom, er den funktionelle virkning af mange stadig ukendt. Tredimensionelle kromatin interaktioner identificeret ved Hi-C eller dets derivater kan give nyttige værktøjer til at anmærkning disse loci ved at forbinde ikke-kodning varianter til deres handlingsrettede gener. Her skitserer vi en protokol til at kortlægge GWAS ikke-kodning varianter til deres formodede gener ved hjælp af Alzheimers sygdom (AD) GWAS og Hi-C datasæt fra humant voksen hjernevæv. Formodede kausale enkelt-nukleotidpolymorfier (SNPs) identificeres ved anvendelse af finkortlægnings algoritmer. SNPs er derefter knyttet til deres formodede målgener ved hjælp af Enhancer-Promoter interaktioner baseret på Hi-C. Det resulterende gensæt repræsenterer annonce risiko gener, da de potentielt reguleres af annonce risiko varianter. For at samle yderligere biologisk indsigt i molekylære mekanismer underliggende annonce, karakteriserer vi AD Risk gener ved hjælp af udviklingsmæssige hjerne ekspression data og hjernen enkelt celle ekspressions profiler. Denne protokol kan udvides til alle GWAS-og Hi-C-datasæt for at identificere formodede målgener og molekylære mekanismer, der underliggende forskellige menneskelige egenskaber og sygdomme.
De mange forenings studier (GWAS) har spillet en afgørende rolle i afsløringen af det genetiske grundlag for en række menneskelige træk og sygdomme. Denne store genotypebestemmelse har afdækket tusinder af genomiske varianter forbundet med fænotyper, der spænder fra højde til skizofreni risiko. Men på trods af GWAS enorme succes med at identificere sygdom og træk associeret loci, en mekanistisk forståelse af, hvordan disse varianter bidrager til fænotype har været udfordrende, fordi de fleste fænotype associerede varianter bor i ikke-kodning del af det menneskelige genom. Da disse varianter ofte overlapper med forudsete regulatoriske elementer, vil de sandsynligvis ændre transkriptional kontrol af et nærliggende gen. Ikke-kodende loci kan dog påvirke transkriptionen af gener ved lineære afstande, som overstiger en megabase, hvilket gør de gener, som berøres af hver variant, svære at identificere. Tredimensionel (3D) kromatin struktur spiller en vigtig rolle i at formidle forbindelser mellem Fjern regulerende loci og gene promotorer og kan bruges til at identificere gener påvirket af fænotype associeret enkelt-nukleotid polymorfier (SNPs).
Gen regulering er medieret af en kompleks proces, som involverer forstærker aktivering og kromatin loop dannelse, der fysisk forbinder smagsforstærkere til gene promotorer, som transkriptionelle maskiner kan rettes1,2,3. Fordi kromatin loops ofte spænder over flere hundrede kilobaser (KB), detaljerede kort af 3D kromatin arkitektur er forpligtet til at dechifrere gen regulerende mekanismer. Flere kromatin konstellation Capture teknologier er blevet opfundet for at identificere 3D kromatin arkitektur4. Blandt disse teknologier, Hi-C giver den mest omfattende arkitektur, da det fanger Genome-dækkende 3D kromatin interaktion profiler. Hi-C datasæt er blevet hurtigt tilpasset til at fortolke ikke-kodning Genome-Wide signifikant (GWS) loci5,6,7,8,9,10,11,12,13, da det kan forbinde ikke-kodning varianter til deres formodede mål gener baseret på kromatin interaktion profiler.
I denne artikel skitserer vi en protokol til beregningsmæssigt forudsige formodede målgener af GWAS risiko varianter ved hjælp af kromatin interaktions profiler. Vi anvender denne protokol til at kort sætte AD GWS loci14 til deres målgener ved hjælp af Hi-C datasæt i den voksne menneskelige hjerne9. De resulterende annonce risiko gener er karakteriseret ved andre funktionelle genomdatasæt, der omfatter enkelt celle transkriptomic og udviklingsmæssige udtryks profiler.
Her beskriver vi en analytisk ramme, der kan bruges til funktionelt at ankommentere GWS loci baseret på positions kortlægning og kromatin-interaktioner. Denne proces involverer flere trin (yderligere oplysninger findes i denne anmeldelse13). For det første, da kromatin interaktions profiler er meget celle specifikke, skal der anvendes Hi-C-data fra de relevante celle/vævstyper, der bedst fanger underliggende biologi af uorden. I betragtning af at ANNONCEN er en neurodegenerativ lidelse, brugte vi voksne Brain Hi-C data9 til at ANNOERE GWS loci. For det andet, hver GWS locus ofte har op til hundredvis af SNPs, der er forbundet med træk på grund af sammenkædning uligevægt (LD), det er derfor vigtigt at opnå formodede årsagssammenhæng (» troværdige «) SNPs ved at beregne årsagssammenhængen ved at anvende finkortlægnings algoritmer21,22 eller eksperimentelt teste reguleringsaktiviteter ved hjælp af tilgange med høj dataoverførselshastighed såsom massivt parallelle reporter assays (mpra)23 eller selv transskriberende aktiv reguleringsområde sekvensering ( STARR-SEQ)24. For det arbejde, der er beskrevet her, brugte vi troværdige SNPs rapporteret i Jansen et al.14. Tredje, promotor og exonic SNPs er kommenteret baseret på positions mapping. Vi brugte en simpel positions kortlægnings strategi, hvor SNPs blev knyttet til generne, når de overlappede med promotorer (defineret som 2 KB opstrøms for transskription start site) eller exons. Denne fremgangsmåde kan imidlertid uddybes yderligere ved at vurdere de funktionelle konsekvenser af exonic SNPs, såsom om SNP inducerer nonsens medierede forfald, missense variation eller nonsens variation. For det fjerde kan kromatin interaktions profiler fra den relevante vævs/celletype bruges til at tildele SNPs til deres formodede målgener baseret på fysisk nærhed. Vi brugte interaktions profiler forankret til initiativtagere, men vi kan yderligere forfine eller udvide interaktions profilerne ved at tage forstærker-aktiviteter (styret af Histon H3 K27 acetylering eller kromatin Accessibility) eller exonic interaktioner i betragtning. En vigtig overvejelse i denne proces er at bruge konsistent menneskelig genom Build. For eksempel, hvis de genomiske positioner i summariske statistikker ikke er baseret på hg19 (dvs. hg18 eller hg38), skal der indhentes en passende version af reference genomet, eller de summariske statistikker skal konverteres til hg19 ved hjælp af liftover25.
Vi anvendte denne ramme til at identificere formodede målgener for AD GWAS, tildele 284 SNPs til 112 AD risiko gener. Ved hjælp af udviklings udtryks profiler26 og celletype specifikke udtryks profiler9, viste vi derefter, at dette gensæt var i overensstemmelse med, hvad der vides om ad patologi, afslører celle typerne (microglia), biologiske funktioner (immunrespons og amyloid beta) og forhøjet risiko efter alder.
Mens vi præsenterede en ramme, der afgrænse potentielle mål gener af AD og dens underliggende biologi, det er af Bemærk, at Hi-C baseret annotation kan udvides til at anmærke enhver ikke-kodning variation. Efterhånden som flere data om hele genomsekvensering bliver tilgængelige, og vores forståelse af den ikke-kodende sjældne variation vokser, vil Hi-C udgøre en vigtig ressource til fortolkning af sygdoms associerede genetiske varianter. Et kompendium af Hi-C ressourcer fra flere vævs-og celletyper vil derfor være afgørende for at fremme en bred anvendelse af denne ramme til at samle biologisk indsigt i forskellige menneskelige træk og sygdom.
The authors have nothing to disclose.
Dette arbejde blev støttet af NIH Grant R00MH113823 (til H.W.) og R35GM128645 (til D.H.P.), NARSAD Young Investigator Award (til H.W.), og SPARK Grant fra Simons Foundation autisme Research Initiative (SFARI, til N.M. og H.W.).
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static-content.springer.com/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |