Vi presenterar ett protokoll för att identifiera funktionella implikationer av icke-kodningsvarianter identifierade genom genomomfattande Associations studier (GWAS) med hjälp av tredimensionella kromatininteraktioner.
Genomomfattande Associations studier (GWAS) har framgångsrikt identifierat hundratals genomiska loci som är förknippade med mänskliga egenskaper och sjukdom. Men eftersom majoriteten av arvsmassan betydande (GWS) loci falla på icke-kodning arvsmassan, den funktionella effekten av många förbli okända. Tredimensionella kromatin interaktioner som identifierats av Hi-C eller dess derivat kan ge användbara verktyg för att kommentera dessa loci genom att länka icke-kodning varianter till deras angriplande gener. Här, vi skissera en protokoll till karta GWAS inte-kodande varianten till deras förmodade generna användande Alzheimers ‘ sjukdom (annons) GWAS och Hej-C datamängder från mänsklig vuxen hjärna vävnad. Den förmodade kausala ennukleotidpolymorfismer (SNP) identifieras genom tillämpning av finkartningsalgoritmer. SNPs mappas sedan till sina förmodade målgener med hjälp av förstärkare-promotor interaktioner baserade på HI-C. Den resulterande gen uppsättningen representerar AD-riskgener, eftersom de kan regleras av annonsriskvarianter. För att samla ytterligare biologiska insikter om molekylära mekanismer bakom AD, karaktäriserar vi annonsriskgener med hjälp av utvecklingsmässiga hjärn uttrycks data och hjärnans encellig uttrycks profiler. Detta protokoll kan utökas till alla GWAS-och Hi-C-dataset för att identifiera förmodade målgener och molekylära mekanismer bakom olika mänskliga egenskaper och sjukdomar.
Genomomfattande Associations studier (GWAS) har spelat en central roll i att avslöja den genetiska grunden för en rad mänskliga egenskaper och sjukdomar. Denna storskaliga genotypning har avslöjat tusentals genomiska varianter i samband med fenotyper som sträcker sig från höjd till schizofreni risk. Men trots den enorma framgången med GWAS att identifiera sjukdom och drag associerade loci, en mekanistisk förståelse för hur dessa varianter bidrar till fenotyp har varit utmanande eftersom de flesta fenotyp associerade varianter bor i icke-kodning del av människans arvsmassa. Eftersom dessa varianter ofta överlappar med förutsedda regulatoriska element, kommer de sannolikt att förändra transkriptionell kontroll av en närliggande gen. Icke-kodning loci kan dock påverka transkription av gener på linjära avstånd som överskrider en megabas, vilket gör att gener som påverkas av varje variant svårt att identifiera. Tredimensionell (3D) kromatinstruktur spelar en viktig roll i att förmedla kopplingar mellan avlägset reglerande loci och gen initiativtagare och kan användas för att identifiera gener som påverkas av fenotyp associerade single-nucleotide polymorfismer (SNP).
Genreglering förmedlas av en komplicerad process, som innebär förstärkare aktivering och kromatin loop formation som fysiskt ansluta förstärkare till gen initiativtagare som transkriptionella maskiner kan riktas1,2,3. Eftersom kromatin slingor ofta spänner över flera hundra kilobaser (KB), detaljerade kartor över 3D kromatin arkitektur krävs för att tyda genreglerande mekanismer. Flera kromatin conformations Capture Technologies har uppfunnits för att identifiera 3D-kromatin arkitektur4. Bland dessa tekniker, Hi-C ger den mest omfattande arkitekturen, eftersom den fångar genomhela 3D kromatin interaktions profiler. Hi-C-datauppsättningar har snabbt anpassats för att tolka icke-kodande genombrett signifikanta (GWS) loci5,6,7,8,9,10,11,12,13, eftersom det kan länka icke-kodning varianter till deras förmodade målgener baserat på kromatin interaktions profiler.
I denna artikel, vi skissera ett protokoll till beräkningsmässigt förutsäga förmodade målgener av GWAS riskvarianter med hjälp av kromatin interaktions profiler. Vi tillämpar detta protokoll för att kartlägga AD GWS loci14 till deras målgener med hjälp av Hi-C-dataset i den vuxna mänskliga hjärnan9. De resulterande AD-riskgenerna kännetecknas av andra funktionella genomiska dataset som inkluderar encellig transcriptomic och utvecklingsmässiga uttrycks profiler.
Här beskriver vi en analytisk ram som kan användas för att funktionellt kommentera GWS loci baserat på positionella kartläggning och kromatin interaktioner. Denna process omfattar flera steg (för mer information se denna recension13). Först, med tanke på att kromatin interaktions profiler är mycket celltyp specifika, Hi-C-data som erhållits från lämpliga cell/vävnadstyper som bäst fångar underliggande biologi av sjukdomen måste användas. Med tanke på att annonsen är en neurodegenerativ sjukdom, använde vi Adult Brain Hi-C data9 för att kommentera GWS loci. För det andra har varje GWS Locus ofta upp till hundratals SNPs som är förknippade med drag på grund av länkage obalans (LD), så det är viktigt att få förmodade kausala (“trovärdiga”) SNPs genom beräkningsmässigt förutsäga kausalitet genom användning av fin-Mapping algoritmer21,22 eller experimentellt testa reglerande aktiviteter med hjälp av högt dataflöde metoder såsom massivt parallella reporter analyser (mpra)23 eller självtranskribera aktiva reglerande region sekvensering ( STARR-SEQ)24. För det arbete som beskrivs här använde vi trovärdiga SNPs rapporterade i Jansen et al.14. Tredje, promotor och exonic SNPs är kommenterade baserat på positionella kartläggning. Vi använde en enkel positions kartläggnings strategi där SNPs kartlades till gener när de överlappade med initiativtagare (definierad som 2 KB uppströms för transkription startplats) eller Exons. Detta tillvägagångssätt kan dock vidareutvecklas genom att bedöma de funktionella konsekvenserna av exonic SNPs, till exempel om SNP inducerar nonsens medierad förfall, genom variation, eller nonsens variation. Fjärde, kromatin interaktions profiler från lämplig vävnad/celltyp kan användas för att tilldela SNPs till deras förmodade målgener baserat på fysisk närhet. Vi använde interaktions profiler förankrade till initiativtagare, men vi kan ytterligare förfina eller utöka interaktions profilerna genom att ta förstärkare aktiviteter (guidad av Histon H3 K27 acetylering eller kromatin tillgänglighet) eller exonic interaktioner beaktas. En viktig faktor i denna process är att använda konsekventa mänskliga arvsmassan. Om den sammanfattande statistikens genomiska positioner inte baseras på hg19 (dvs. hg18 eller hg38), bör en lämplig version av referensgenomet erhållas, eller så måste den sammanfattande statistiken konverteras till hg19 med hjälp av liftover25.
Vi tillämpade denna ram för att identifiera förmodade målgener för AD GWAS, tilldela 284 SNPs till 112 AD riskgener. Använda utvecklingsmässiga uttrycks profiler26 och celltypspecifika uttrycks profiler9, vi visade då att denna genuppsättning överensstämde med vad som är känt om AD patologi, avslöjar celltyper (microglia), biologiska funktioner (immunsvar och amyloid beta), och förhöjd risk på ålder.
Medan vi presenterade en ram som avgräntar potentiella målgener av AD och dess underliggande biologi, är det att notera att Hi-C-baserad anteckning kan utökas för att kommentera alla icke-kodning variation. Eftersom mer hela-Genomsekvensering data blir tillgänglig och vår förståelse om den icke-kodning sällsynt variation växer, Hi-C kommer att ge en viktig resurs för tolkning av sjukdomsassocierade genetiska varianter. Ett kompendium av Hi-C-resurser som erhållits från flera vävnads-och celltyper kommer därför att vara avgörande för att underlätta en bred tillämpning av denna ram för att samla biologiska insikter i olika mänskliga egenskaper och sjukdomar.
The authors have nothing to disclose.
Detta arbete stöddes av NIH Grant R00MH113823 (till H.W.) och R35GM128645 (till D.H.P.), NARSAD Young Investigator Award (till H.W.), och SPARK Grant från Simons Foundation autism Research Initiative (SFARI, till nm och H.W.).
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static-content.springer.com/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |