我们提出了一个协议,用于识别使用三维染色质相互作用的全基因组关联研究(GWAS)识别的非编码变异的功能影响。
全基因组关联研究(GWAS)已经成功地确定了数百个与人类特征和疾病相关的基因组位点。然而,由于大多数全基因组显著(GWS)位点都属于非编码基因组,许多功能影响仍不得而知。由Hi-C或其衍生物识别的三维染色质相互作用可以通过将非编码变异与其可操作基因联系起来,为这些位点进行说明提供有用的工具。在这里,我们概述了一个协议,以映射GWAS非编码变体,以映射到他们的假定基因使用阿尔茨海默氏病(AD)GWAS和Hi-C数据集从人类成人脑组织。通过应用精细映射算法来识别假定因果单核苷酸多态性 (SNPs)。然后,使用基于 Hi-C 的增强剂-促进者相互作用,将 SNPs 映射到其假定目标基因。生成的基因集代表 AD 风险基因,因为它们可能受 AD 风险变异的调控。为了进一步深入了解AD背后的分子机制,我们使用发育性大脑表达数据和大脑单细胞表达图谱来描述AD风险基因。该协议可以扩展到任何GWAS和Hi-C数据集,以识别各种人类特征和疾病背后的假定靶基因和分子机制。
全基因组关联研究(GWAS)在揭示一系列人类特征和疾病的遗传基础方面发挥了关键作用。这种大规模的基因分型已经发现了数千种与表型相关的基因组变异,范围从身高到精神分裂症风险。然而,尽管GWAS在识别疾病和特征相关位点方面取得了巨大成功,但机械学对这些变异如何促成表型的理解一直具有挑战性,因为大多数表型相关变异都存在于非编码中人类基因组的一小部分。由于这些变异通常与预测的调控元素重叠,它们可能会改变附近基因的转录控制。然而,非编码位点可以影响基因的转录,线性距离超过一兆碱基,使受每个变异影响的基因难以识别。三维(3D)染色质结构在调解远距离调控位点和基因启动子之间的连接方面起着重要作用,可用于识别受表型相关单核苷酸多态性(SNPs)影响的基因。
基因调控是由一个复杂的过程,其中涉及增强剂激活和染色质循环形成,物理连接增强剂的基因启动子,转录机制可以定向1,2,3。由于染色质环通常跨越几百千基(kb),需要3D染色质结构的详细地图来破译基因调控机制。已发明多种染色质构象捕获技术,以识别3D染色质架构4。在这些技术中,Hi-C 提供了最全面的架构,因为它捕获了全基因组的 3D 染色质相互作用配置文件。Hi-C数据集已经迅速被调整,以解释非编码全基因组显著(GWS)位点5,6,7,8,9,10,11,12,13,因为它可以将非编码变异链接到其假定的目标基因基于染色质相互作用配置文件。
在本文中,我们概述了使用染色质相互作用谱计算预测GWAS风险变异的假定目标基因的协议。我们应用这个协议来映射ADGWS位点14到他们的目标基因使用Hi-C数据集在成人人脑9。由此产生的AD风险基因由其他功能基因组数据集为特征,包括单细胞转录组和发育表达谱。
在这里,我们描述了一个分析框架,它可用于基于位置映射和染色质相互作用对GWS位点进行功能性说明。此过程涉及多个步骤(有关更多详细信息,请参阅此评论13)。首先,鉴于染色质相互作用的轮廓是高度细胞类型的特异性,Hi-C数据从适当的细胞/组织类型获得,最好地捕获疾病的基础生物学需要使用。鉴于AD是一种神经退行性疾病,我们使用成人大脑Hi-C数据9来对GWS位点进行分文。其次,由于联动不平衡 (LD),每个 GWS 位点通常具有多达数百个与特征相关的 SNPs,因此,通过使用精细映射算法21、22或使用高通量方法(如大规模并行报告器 (MPRA)23或自转录活动区域排序)计算预测因果关系,获得假定因果(”可信”)SNPs 非常重要。STARR-seq)24.对于这里描述的工作,我们使用了Jansen等人14中报道的可信的SNPs。第三,启动子和外音SNPs是基于位置映射进行加法。我们使用一个简单的位置映射策略,其中 SNPs 在与启动器(定义为转录起始位上游的 2 kb)或外源子重叠时映射到基因。但是,可以通过评估外音 SNPs 的功能后果来进一步阐述此方法,例如 SNP 是否导致无意义的中介衰变、误解变异或无意义变异。第四,来自相应组织/细胞类型的染色质相互作用曲线可用于根据物理接近性为其假定目标基因分配SNPs。我们使用锚定到启动器的交互配置文件,但我们可以通过将增强剂活动(由组蛋白 H3 K27 乙酰化或染色质可访问性引导)或外音相互作用考虑进一步优化或扩展交互配置文件。在这个过程中的一个重要考虑因素是使用一致的人类基因组构建。例如,如果汇总统计的基因组位置不基于 hg19(即 hg18 或 hg38),则应获得参考基因组的适当版本,或者需要使用提升25将汇总统计数据转换为 hg19。
我们应用这个框架来识别AD GWAS的假定目标基因,将284个SNPs分配给112个AD风险基因。使用发育表达谱26和细胞类型特定表达谱9,我们随后证明,该基因集与已知的AD病理学一致,揭示了细胞类型(微胶质)、生物功能(免疫反应和淀粉样蛋白β),以及年龄风险升高。
虽然我们提出了一个框架,其中标定了AD的潜在目标基因及其基础生物学,但值得注意的是,基于Hi-C的注释可以展开,以注释任何非编码变异。随着更多的全基因组测序数据可用,我们对非编码罕见变异的理解也越来越多,Hi-C将为解释疾病相关基因变异提供关键资源。因此,从多种组织和细胞类型中获得的Hi-C资源简编对于促进广泛应用这一框架以收集对各种人类特征和疾病的生物见解至关重要。
The authors have nothing to disclose.
这项工作得到了NIH授予R00MH113823(至H.W.)和R35GM128645(D.H.P.)、NARSAD青年调查员奖(授予H.W.)和西蒙斯基金会自闭症研究倡议(SFARI,至N.M.和H.W.)的SPARK赠款的支持。
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static-content.springer.com/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |