Genetics

遗传变异的氨基酸级信噪比分析确定变异致病性的可能性

Published: January 16, 2019 doi: 10.3791/58907

¹Department of Pediatrics, Baylor College of Medicine, ²Department of Pediatrics, Division of Cardiology, Duke University School of Medicine

Summary

氨基酸水平信噪比分析确定了在给定氨基酸位置的遗传变异的流行率归一化为特定种群的背景遗传变异。这样就可以识别蛋白质序列 (信号) 中的变种 "热点", 这些变化高于在人群 (噪声) 中发现的罕见变种的频率。

Abstract

下一代基因测序的成本和速度的提高产生了临床全外显子组和全基因组检测的爆炸式增长。虽然这导致更多的识别可能与遗传综合征相关的致病性突变, 它也大大增加了偶然发现的未知意义的遗传变异 (vus) 的数量。确定这些变体的临床意义是科学家和临床医生面临的一项重大挑战。一种帮助确定致病性可能性的方法是在蛋白质序列级别进行信号到噪声分析。该协议描述了一种氨基酸级信噪比分析方法, 该方法利用蛋白质已知蛋白质拓扑结构的每个氨基酸位置的变异频率来识别初级序列中具有较高可能性的区域。病理变异 (相对于人口的 "背景" 变异)。该方法可以识别高病理信号的氨基酸残留位 "热点", 可用于细化下一代基因检测发现的 vuss 的诊断权重。

Introduction

基因测序平台的迅速改进彻底改变了遗传学在医学中的可获得性和作用。曾经局限于单个基因或少数基因, 下一代基因测序成本的降低和速度的提高导致了基因组整个编码序列 (整个外显子组测序、wes) 和整个基因组 (全基因组测序, wgs) 在临床环境中。wes 和 wgs 经常被用于考虑危重新生儿和关注遗传综合征的儿童, 在这些环境中, wes 和 wgs 是一种经证实的诊断工具, 可以改变临床管理¹^,²。虽然这导致了对与遗传综合征相关的可能致病性突变的更多识别, 但也大大增加了偶然发现的未知诊断的基因变异或意外阳性结果的数量(vus)。虽然其中一些变异被忽略, 并没有报告, 变异定位与潜在致命或高度病态疾病相关的基因经常报告。目前的指南建议报告在可能对患者有益的特定基因中发现的附带变异, 包括与心脏猝死诱发疾病 (如心肌病和渠道病³。虽然这项建议旨在捕获有可能发生 scd 诱发疾病的个人, 但变种检测的敏感性远远超过特异性。这反映在越来越多的 vus 和偶然识别的变量与不明确的诊断效用, 远远超过频率的各自疾病在给定的人口⁴。其中一种疾病, 长 qt 综合征 (lqts), 是由突变定位到编码心脏离子通道的基因, 或通道相互作用的蛋白质, 导致心脏复极延迟5引起的典型心脏通道病^.这种延迟复极化, 看到一个长期的 qt 间隔在休息心电图, 导致一个潜在的致命室性心律失常的电易感性, 如尖扭转。虽然一些基因与这种疾病的发展有关,但 kcnq1编码的 i_{k 钾}通道 (kcnq1, kv7.1) 的突变是 lqts 1 型的原因, 并作为6型以下的例子.在描述变异解释的复杂性时, 以前所描述的是 lqts 相关基因中罕见的变异, 即所谓的 "背景遗传变异".

除了已知病原变异的大型汇编式数据库外, 还有几种策略可以预测不同变异将产生的影响。一些是基于算法, 如 sift 和 polyphen 2, 它可以过滤大量的新的非同义词变种, 以预测有害性⁹^,¹⁰。尽管这些工具被广泛使用, 低特异性限制了其适用性, 当涉及到 "调用" 临床 vus^11."信噪比" 分析是一种工具, 它根据已知的病源的已知病理变异频率, 根据种群中罕见的遗传变异, 确定变异与疾病相关的可能性。与基于人群的变异 (高信号到噪声) 相比, 与基于人群的变异相比, 与疾病相关突变的流行率较高的遗传位点的差异更有可能与疾病相关。此外, 与疾病相关频率 (低信噪比频率) 相比, 偶然发现的罕见变异体与罕见种群变异频率较高的基因的定位, 可能不太可能与疾病相关。信号到噪声分析的诊断效用已在最新的心肌病和渠道病基因检测指南中得到说明;然而, 它只被应用于整个基因水平或领域^{特异性的 12级.}最近, 考虑到病理变异 (疾病数据库、文献中的队列研究) 和基于人群的控制变量 (exome 聚合联盟、exac 和基因组聚合数据库, gnomad¹³) 的可用性增加,这已被应用于蛋白质的原代序列内的单个氨基酸位置。氨基酸水平的信噪比分析已被证明是有用的分类偶然确定的变异的基因与 lqts 相关的可能 "背景" 遗传变异, 而不是疾病相关。在与 lqts 相关的三个主要基因中, 包括kcnq1, 这些偶然识别的变种缺乏显著的信噪比, 这表明这些变种在单个氨基酸位置的频率反映了罕见的种群变异, 而不是与疾病相关的突变。此外, 当蛋白质特异性域拓扑被叠加在高信噪区域时, 病理突变的 "热点" 被定位到蛋白质^的关键功能域14。这种方法有希望在确定 1) 变异的可能性是疾病或人口相关和 2) 确定新的关键功能领域的蛋白质与人类疾病。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 识别感兴趣的基因和特定的拼接等形式

注: 在这里, 我们演示使用 ensembl¹⁵来确定与感兴趣的疾病的发病机制相关的感兴趣的基因的共识序列 (即kcnq1 突变与 lqts 相关)。ensembl 的替代方案包括通过国家生物技术信息中心 (ncbi)¹⁶和加州大学圣克鲁斯分校 (ucsc) 人类基因组¹⁷ (见材料表)。

在 ensembl 主页中, 在下拉菜单中选择物种 (即人类), 并在字段中输入感兴趣的首字母缩写基因 (即kcnq1)。点击 "转到"
选择与感兴趣的基因相对应的链接 (即"kcnq1 (人类基因)"
从 "成绩单表" (即成绩单 enttid ent000155840.10,NM_000218 [rna 成绩单]、NP_000209 [rna 成绩单的蛋白质产品]) 中选择与感兴趣的兴趣记录的链接相对应)。
注: 需要审查相关文献, 以确保选择正确的记录共识序列。
请注意 "抄本表" 的 "refseq" 列中的转录特定 nm 和 np 标识号, 以供将来参考。
选择与 np id 号关联的链接, 从 ncbi 蛋白质数据库中打开一个新网页。
向下滚动到 "起源" 部分, 以获得感兴趣的基因转录的蛋白质 (主要) 序列。
向上滚动到 "功能" 部分, 以获取蛋白质功能的列表 (功能域、绑定域、翻译后修饰站点)。
注: 这些信息也可以通过 ncbi 蛋白质数据库或文献中的主要来源获得。这将在步骤5中进一步讨论。

2. 创建实验遗传变异数据库 ("信号")

注: 在这里, 我们演示如何创建一个数据库的疾病相关的变异在感兴趣的基因与频率的疾病相关的变种之间的个人与疾病感兴趣的人。该数据库可以采取多种形式, 并表示 "信号" (假设正遗传变异), 将根据控制变量数据库进行归一化。这可以包括 1) 与 vuss 进行比较的与 vuss 进行比较的变体, 以识别蛋白质和/或 2) vuss 的新功能域, 包括偶然识别的 vuss, 以便与疾病相关的变体进行比较, 从而确定致病性。为说明 "朝一" 中与疾病相关的变种;然而, 这种方法对于分析偶然识别的 vuss 或任何其他实验变种也是一样的。

识别与感兴趣的疾病无关的指数病例的队列, 感兴趣的基因对所有的前驱体进行了全面的基因分型 (即一项研究在200种遗嘱符号中确定了24个不相关的主点宿主变体)受到 kcnq1 基因审讯的 lqts 患者)。
注: 这些队列可以从文献中、实验性遗传分析中或两者的结合中识别。
1. 排除不以队列为基础的研究 (即描述单个突变阳性个体的案例报告), 不提供为感兴趣的基因进行基因分型的个体总数, 或没有对基因进行全面的基因分析 (即只有朝中一外显子2-4 的 "有针对性" 基因筛选) 这些排除了变量频率的计算。
2. 包括不相关的个体, 并排除相关的个体, 因为这可能会高估变异频率 (即一项研究确定4个不相关的个体与 kcnq1 突变在20个患者的小组中的 lqts。其中一个是一个家庭的一部分, 其他5个突变阳性亲属。排除所有家庭成员, 并且仅包括4个不相关的主符号)。
编译在已识别队列中发现的所有实验基因变异
1. 指定包含野生氨基酸类型、氨基酸位置和变体氨基酸的命名法 (即氨基酸号212处的丙氨酸改为 valine、ala212val 或 a212v)。图 1演示了这样一种命名法。
2. 确认所有实验基因变异的变体命名是基于步骤1.4 中指出的相同的参考基因转录。如果实验基因变异没有在相同的参考基因转录上进行注释, 则使用转录对齐将变体位置重新注释到参考转录条 (请参阅步骤 1.2)
排除不适用的变体, 具体取决于所探讨的问题。
1. 排除定位于基因组的非编码区域或不改变蛋白质序列的变异的变种, 如同义词、内连变异、5 ' 或 3 ' 未翻译区域 [utr] 和基因间区域变异 (即报告的病理)在朝中 q1 中定位到编码区域的 5 ' utr 的变种将被排除在外, 因为它不会被预测会改变蛋白质序列)。
2. 排除不符合研究包含条件的变体。对于与疾病相关的变种, 这包括不再被视为病理的变种。
  1. 通过与 clinvar 数据库交叉引用变体, 确认每个变体当前被视为致病性、可能致病性, 或至少不是良性变体 (见材料表)。
  2. 在 clinvar 搜索字段中输入感兴趣的基因和变体 (即kcnq1-y111c), 选择 "搜索"
  3. 在 "变体/位置" 列下标识感兴趣的变体。
  4. 注意在 "临床意义" 一栏 (即kcnq1-y111c 被解释为 "致病性") 下对致病性的一致解释。
  5. 包括 "可能致病性" 或 "致病性" 的变体。
  6. 在研究证明有必要的情况下, 列入 "对致病性的相互矛盾的解释"、"不确定的意义" 或在没有记录的情况下 ("未提供") 的名称的变种。
  7. 排除被指定为 "可能良性" 的变种 (即朝中 q1-a62t)。
计算每个实验变体位置的小等位基因频率 (maf)。
1. 计算每个不同变量的任何等位基因是如何呈阳性的 (即, 如果在2个不相关的个体中发现了朝中 q1-y111c 杂合突变, 则可变阳性等位基因的数量为 2)。
2. 计算队列中排列的等位基因总数
  1. 请注意在每个队列研究中排序的总人数 (步骤 2.1)
  2. 将个体总数乘以 2, 以确定等位基因的总数。
    注: 这假定二倍体基因组, 即每个单独的主机2个等位基因。
3. 计算每个氨基酸位置的变量阳性个体的总数 (步进等位数 2.4.1/alleles 2.4.2)。例如, 如果两个不相关的个体每个宿主杂合 kcnq1-y111c 突变在100和200个受 lqts 影响的个体的队列中, 那么氨基酸111位置的实验变种频率为 2 variants/((100+200 个体2等体) (即maf-0.0033 组合)。
4. 将每个变量的此值计算为每个实验变体的相应 maf。有关其他详细信息, 请参阅步骤4.2。

3. 创建控制遗传变量数据库 ("噪音")

注: 在这里, 我们演示如何创建一个数据库的控制变量在感兴趣的基因与一个相关的频率在控制群体。该数据库表示 "噪声" (苯基负, 基于人群的遗传变异), 这是实验变量数据库将被规范化的背景。这称为 "控制" 变体。

识别一组健康的、不相关的主点或利用大型基于人口的研究来识别给定人群中罕见的变异。
注: 该数据库的来源多种多样, 包括: (1) 健康的个人和/或其他接受 sanger 测序的酚类阴性个人, 或公开拥有的人口为基础的个人的数据库, 有关疾病的是罕见的频率, 如 2) 1000 基因组项目⁽n = 1, 094 个科目) 18, 3) 国家心脏、肺和血液研究所 go 外显子测序项目 (esp, n = 5 379 对象)¹⁹, 4) 外显子聚集联盟 (exac, n = 60, 706 科目)¹³基因组聚合数据库 (gnomad, n = 138 632 人) 13 (见材料表)^.gnomad 数据库将作为一个示例。
1. 在 gnomad 主页 (即kcnq1) 的搜索框中输入感兴趣的基因。
2. 确认浏览器选择了正确的基因和感兴趣的成绩单 (步骤 1.4)。
3. 通过查看 "平均覆盖" 和 "覆盖图", 确认位点的顺序有适当的覆盖范围。
4. 通过选择 "误解 + lof" 选择编码序列遗传变异。
5. 选择 "将表导出到 csv", 这将生成一个名为 "未知" 的文本编辑文件。
6. 重新说明该文件并包括一个新的扩展名 "*. csv" (即"kcnq1 控制变量. csv")。
7. 使用适当的软件程序打开文件以分析 *. csv 文件 (请参阅材料表)。
在标记为 "蛋白质后果" 的色谱柱中识别改变蛋白质的遗传变异。
将相同的排除标准应用于这些对照遗传变异, 作为实验遗传变异 (步骤 2.3.1)。
标识每个控件变体的 maf。
1. 找到 "等位基因计数" 列, 它表示发现有该变量的等位基因的数量。
2. 找到 "等位基因数" 列, 它表示在这个给定的氨基酸位置测序的等位基因总数。
  注: 排序的等位基因总数将根据该位置的覆盖范围而有所不同。高覆盖率地区将接近 gnomad 2*total 人数 (即为 138 632 人, 全面覆盖包括277264个基因分型等位基因)。相反, 覆盖率较低的区域的总等位基因数量将减少
3. 找到在 "等位基因频率" 列中预先计算的变体 maf, 表示 "等位基因计数" 除以 "等位基因编号"。
  注: 人类基因组有两个每个等位基因 (即1 主体被发现有杂合变异在10人有一个半 maf)
4. 请注意, 每个变量的 maf 是每个控件变体的相应 maf。
  注: 在 "等位基因频率" 右侧的栏目中可以看到构成 GnomAD 的每个种族族裔群体的特定变种 maf。
对罕见的变体应用 maf 阈值, 上面的控制变体被排除为 "常见"。
1. 将 maf 阈值设置为最大值, 在该值中, 控制数据库中也观察到的所有真正与疾病相关的变体 (请参阅步骤 2) 都低于阈值 (即, 在 gnomad 中也发现的所有与疾病相关的 kcnq1 变量中)。最高的共同变量 maf 是 0.009, 那么所有 gnomad 变种高于0.01 的阈值应排除)。
确保实验变体命名法与控件相同 (请参见步骤 2.2)。
保存该文件。在某些情况下, 这可能需要更改文件类型/扩展名。

4. 氨基酸水平信噪比计算和映射

计算具有对照变量的每个氨基酸位的 maf (参见包含 kcnq1 gnomad 变体示例的图 1 )。
1. 在具有图形功能的电子表格中, 创建所有实验变体的位置列。
2. 删除变体文本, 只保留变体位置。
  注: 可以使用各种函数/公式自动删除单元格中的这些文本元素 (图 1, c 列; 请参见材料表)。
3. 对升序值中的变体进行排序, 以确定哪些位置与之关联的变体超过 1个 (图 1, e 列;即氨基酸位置10在 e 列中列出两次, 表示该位置的2个独特变体)。
4. 通过获取给定位置的所有 maf 之和 (图 1, g 列和 h 列), 将与给定位置关联的每个变体的 maf 组合组合在一起。
计算每个氨基酸位置的 maf 与实验变种 (见图 2包含模拟 kcnq1 病理变种)。
1. 以类似于4.1.1 的方式, 创建具有实验变体的氨基酸位列 (图 2, b 列)。
2. 对于每个变体位置, 从步骤 2.4 (图 2, c-g 列) 计算与该位置关联的所有变体的 maf。
为实验和控制变体创建 maf 的滚动平均值。
1. 展开在4.1 和4.2 中创建的列, 以包括没有 maf = 0 变体的氨基酸位置的单元。(图 3)。
  1. 创建一个包含感兴趣基因中所有氨基酸位置的列 (即朝中一的1至 676,图 3, c列和 i)。
  2. 对于所有没有控制和实验数据集变体的位置, 添加一个 maf 为0。
    注: 这可以通过在常用的软件程序中使用 "vlookup" 功能自动完成 (图 3, d 列和 j 列, 请参阅材料表)。
2. 为每个实验和控制流行率列创建滚动平均值。
  注: 这允许推断相邻位置致病性, 可以修改, 甚至排除, 以适应研究的需要。
  1. 为控制数据集和实验数据集创建一个表示 maf 滚动平均值的列 (图 3, e 列和 k 列)。
  2. 在滚动平均列中, 将5个变型位置 n 端和5个变位 c 端子各自 maf 的平均值放置到给定位置。
    注: 这将创建 +/-5 的滚动平均值。对于滚动平均位置 (即n-或 c-终端) 之前或之后的氨基酸残留量小于5个的位置, 滚动平均值将只考虑存在的残留物 (即滚动平均值在氨基酸位置3将是平均 maf 在氨基酸位置1到 8, 计算为这些 maf 除以8的总和)。
通过将最低滚动 maf 除以2来计算最小控制频率。
1. 在计算信噪比时, 将控制 maf 为0的任何单元格更改为最小频率, 以避免除以0。
计算氨基酸水平信噪比 (图 4)。
1. 将各氨基酸位置实验轧制平均除以各自的控制轧制平均数。
2. 绘制此比率 (y 轴)与氨基酸位置 (x 轴) 的图。

5. 蛋白质域拓扑覆盖

确定感兴趣的蛋白质的功能域特征或翻译后修饰区域的一致氨基酸位置 (步骤 1.7)。
注: 可以使用许多资源来标识这些域。这些资源, 以及用于识别新蛋白质中假定域的资源, 在文献²⁰中得到了很好的评论。该协议将描述通过 ncbi 提供的蛋白质数据库, 该数据库被广泛使用且坚固耐用 (见材料表)。
识别与蛋白质领域/特征相关的氨基酸位置。
1. 打开 ncbi 网页。
2. 在搜索场中输入感兴趣的蛋白质的 np。
3. 识别已知的蛋白质域和特征是 "特征" 下的目录。
4. 识别并记下域名称/类型和氨基酸位置。
5. 选择与特征相对应的链接, 以可视化感兴趣的蛋白质原始序列上的区域。
创建包含 domains/要素的边界的列。
1. 在信号旁边创建一个列: 噪声列, 以便可以引用氨基酸位置列 (图 5a, c 列)。
2. 识别在每个域特征的 n 端或 c 端端上对应的电池, 并在每个单元中放置 1个 (即, 如果 kcnq1 的 s1 跨膜域的 n 端域是氨基酸位置 122, 而 c-终端域是位置142, 然后在一排中放置1的氨基酸位置122和 142)。
3. 对于重叠的 domains/功能, 通过将1更改为其他值 (即1.5、2、2.5) 来显示多个域;这可以帮助区分领域。
创建一个具有这些边界的图, 该图作为 y 轴和 x 轴上的氨基酸位置 (图 5b)。
使用步骤4.4 中创建的信噪比图覆盖此图。
识别已知蛋白质域/特征与信噪比分析之间的相关性。

6. 变位置叠加

映射各个变体位置, 用于覆盖步骤4.4 和5.4 中生成的图形。
1. 创建 domain/要素列旁边的列, 以便列中的行将对应于氨基酸位置 (图 5a, 列 d)。
2. 在与包含各自变体的位置相对应的添加行中的每个单元格中放置1。
3. 创建一个以此列为 y 轴和 x 轴上的氨基酸位置的图形 (图 5c)。
使用在步骤4.4 中创建的信噪比图和在步骤5.4 中创建的域图覆盖此图。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

图 6给 kcnq1 的氨基酸级信号噪声分析一个有代表性的结果。在本例中, 描述了在 gnomad 队列 (对照组) 中识别的罕见变体、意外识别的 wes 变体 (实验队列 #1) 和被认为与疾病相关的 lqts 病例相关变体 (实验队列 #2)。此外, 还描述了与 gnomad 变异频率归一化的 wes 和 lqts 队列变量频率的信噪比分析。与 lqts 相关的变种在与通道孔、选择性滤波器和 kcnet 结合域相对应的域中显示了较高的信噪比。相比之下, wes 队列中偶然识别的变体并没有清楚地显示高信噪比的特定区域, 这表明这些变异反映了背景遗传变异。此示例未使用上述变体 maf;然而, 它展示了所描述的所有相同的原则。

图 1: 具有 maf 计算的控件变量数据库示例.a 列, 直接导入 gnomad 控制罕见的变体。列 b, 删除左侧, 非位置相关的文本从变体命名法使用字符删除的示例公式 (即: 对于 b2 "= RIGHT(A2,LEN(A2)-5", 请参阅材料表)。列 c, 使用相关公式 (即: c2 "= LEFT(B2,LEN(B2)-3") 从变体命名法中删除右侧、非位置相关的文本。d 列, 由此产生的未分类氨基酸位置。列 e, 氨基酸位置排序在一个上升的方式, 以允许识别重复的位置。f 列, 与从 gnomad 导入的每个变体的 maf 相关联。g 和 h 柱, 组合 maf 为给定的氨基酸位置 (每个变量 maf 的总和在一个特定的位置)。请点击这里查看此图的较大版本.

图 2: 具有 maf 计算的实验变量数据库示例.列 a, 一个列表的模拟 lqts 相关的突变在 kcnq1 代表一个疾病相关的突变实验数据库。b 列, 每个变量对应的突变位置。c 栏, 模拟研究1中突变阳性个体的计数。每一种都被认为是杂合突变载体。研究中基因分型的个体总数位于表格底部。d 栏, 模拟研究2中突变阳性个体的计数。e 列, 模拟研究3中突变阳性个体的计数。f 列, 所有研究中的总突变阳性个体, 承载观察到的突变。请注意, 与相同氨基酸位置相关的不同突变应组合在一起。g、maf 列使用一个示例公式 (即: g2 "= 2/(176 * 2)", 见材料表)。请注意, 由于所有个体都被认为是杂合体, 并且每个个体都假定携带2个等位基因的朝中一位基因位基因, 因此, 总个体的等位基因频率应乘以2。请点击这里查看此图的较大版本.

图 3: 控制和实验变型的轧制平均计算示例.a 栏和 b 栏, gnomad 控制变量位置和各自的 maf。c 栏, 从氨基酸位置到最终位置的朝中一的所有氨基酸位置。d 列, gnomad 变量 maf 适用于 maf 为0的所有位置, 而不是没有变量的位置。这可以使用 vlookup 函数 (即 d2, "= IFERROR(VLOOKUP(C2,A:B,2,),0) 自动计算, 请参阅材料表)。e 列, 使用示例公式的位置 maf 滚动平均值 (即e2、"= SUM(D2:D7)/6" 和 e7、"= SUM(D2:D12)/11")。g 和 h 列, lqts 实验变量位置与各自的 maf。第一栏, 朝中一的所有氨基酸位置。第 j 栏, lqts 变型 maf, 适用于所有职位。g 栏, 滚动 lqts maf。灰色填充单元格是将 b 列和 h 列中的 maf 值分别扩展到 d 列和 j 列的示例, 这两列与列/i 中的相应位置相关. 请注意, 所有单元格都要格式化为 "数字", 以获得适当的公式功能。请点击这里查看此图的较大版本.

图 4: 信号到噪声分析和图形绘制的示例.左, 例如数据库和计算。a 栏, 朝中一的所有氨基酸位置。b 栏、lqts 实验 maf 卷的每个位置的滚动平均值。c 列, gnomad 控制每个位置的 maf 滚动平均值。d: 信噪比 (即 d2, "= b2\ c2").右, 信噪比 (y 轴) 与氨基酸位置 (x 轴) 的图形示例。请点击这里查看此图的较大版本.

图 5: 蛋白质和变体位置映射的示例.a, 示例数据库和计算。a 栏, 朝中一的所有氨基酸位置。b 栏, 朝中一的位置, 在 gnomad 中发现了罕见的控制变种。列 c, 域映射列, 其中包含值的单元对应于已识别的 kcnq1 蛋白域或特征的 n 或 c 端方面。由于大多数 n 终端域是 s1 域在氨基酸122处具有 n-终端边界, 因此此处没有标注任何值。列 d, 变量映射列, 其中包含1的单元格对应于将稀有变体本地化的 kcnq1 位置。灰色填充单元格是将 b 列中的变体位置扩展到 d 列的两个示例, 这些位置与 a 列中的相应位置相关. 请单击此处查看此图的较大版本.

图 6:朝中一编码的 kcnq1(kv7.1) 的氨基酸级信噪比分析实例.顶部, 变种位置显示与垂直线, 包括罕见的 gnomad 队列变体 (黑色), 意外识别的变种在 wes 推荐 (蓝色), 以及在 lqts 案例中识别的变体 (绿色)。功能域被注意到。与 wes (蓝线) 相比, 将归一化为 gnomad 变种 (绿线) 的 lqts 案例变体的相对频率进行了描述。s1-s6, 跨膜域;sf, 离子选择性滤波器;朝 cne1 和 akap9, 各自的蛋白质结合领域。修改和重印与以前的工作14的权限^.请点击这里查看此图的较大版本.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

在过去十年中, 高通量基因检测在应用和可用性方面取得了显著进展。然而, 在许多具有成熟遗传基础的疾病中, 如心肌病, 扩大检测未能提高诊断结果²¹。此外, 许多已确定的变体的诊断效用存在很大的不确定性。这在一定程度上是由于在 wes 和 wgs 上发现的偶然发现的罕见变种越来越多, 这可能导致误诊22。氨基酸级信噪比分析基于公认的预测变异致病性的策略, 并提供了利用大规模的基于人口的基因组研究来细化变异解释的优势。

因此, 该协议最关键的步骤之一是选择控制和实验队列。许多公开的大型基因组研究可以通过 gnomad 等综合数据库查阅, 这些数据库可以使该协议中具有代表性的控制群体目前多达 138, 632 人。虽然并非这些综合队列中的所有研究对象表面上都是健康的, 但在罕见疾病的设置中, 大量的样本量使这一资源变得非常宝贵, 并允许严格的 maf 排除阈值。排除常见的变种是必要的, 因为它们不可能是高度渗透孟德尔病的原因。根据先前的研究, 血管病理学相关基因的 maf 阈值为 0.01, 心肌病基因的 maf 阈值为 0.0001, 可能是适当的, 并已得到 23^,²⁴^组的证实。重要的是, 鉴于 maf 阈值的重要性, 应针对每项研究独立设置和验证这一点。考虑到渠道病和心肌病中创始人突变的成熟存在, mof 阈值不需要应用于实验队列。实验队列的大小需要足以确定变体可能聚集的区域;但是, 没有严格的尺寸。此外, 实验队列不应包括已知为良性的变种在文献中, 因为这将降低致病信号的真实性。

适当选择排除标准对于解释和适用性结果也至关重要。尽管该协议建议排除某些突变类, 如同义变体, 但这些可能被纳入已识别出有害的同义变异 25,²⁶的疾病过程。此外, 当将各种排除标准应用于实验组和对照组时, 它还允许按突变子类对信噪比进行分层 (即将错误与截断变量进行比较)。

为 maf 设置滚动平均值可以推断与相邻氨基酸的参与。例如, 如果氨基酸位置35包含病理变体并驻留在一个关键的蛋白质域中, 则位置36在突变时可能具有一定程度的致病性。同样, 如果一个原始序列的延伸有大量的罕见的控制变种, 那么在这个区域内不承载罕见的变种的氨基酸可能还有更高的可能性, 包含在一个群体中发现的罕见变种。虽然此协议中的滚动平均值为 +/-5, 但根据用户所需的信噪比分辨率水平和正在研究的特定蛋白质, 可以根据用户的预期分辨率来改变此范围。在 lqts 的例子中, 被质疑的 kcnq1编码的 kcnq1 通道有几个跨膜域, 跨越 ~ 10个氨基酸, 促使作者调整他们所期望的分辨率, 以反映在^{该尺度 14级}的重要发现。对于原生序列和蛋白质长度较长的蛋白质, 由于蛋白质序列的跨度较大而没有控制变化, 滚动平均值的跨度可能需要增加。

此方法有几个限制。如前所述, 必须确定足够的酚类阳性种群, 该种群具有假定的病理变异, 以驱动清晰的病理信号。此外, 这些病理变异可能具有可变的穿透力, 因此真正的病理突变可能不会表现出一种疾病表型或可能不是完全穿透性和引起的疾病。虽然许多公开拥有的数据库, 如 gnomad, 往往被认为是 "健康的群体", 但遗传疾病的流行率在这个数据库中可能与人口研究相似。详细而言, 该协议特别关注氨基酸编码的外显子基因变异所产生的氨基酸水平变化, 这排除了致病性内耳拼接变异在单基因疾病中可能发挥的作用。鉴于他们最近被证明在心肌病中的作用, 扩大该解决方案的方法可能有必要, 以确定基因间的 "热点" 以及。此外, maf 阈值的应用可能会错过某些 "风险等位基因", 这些等位基因虽然存在于 maf 高于疾病流行率的人群中, 但可能会导致疾病发病机制²⁷^,^28.尽管有这些限制, 这种分析是适应性强的, 可以发挥关键作用, 为临床医生提供疾病致病性的相对概率, 在适当的应用。

最后, 考虑到这一分析的偏好, 以确定蛋白质中的关键区域, 利用病理突变进行氨基酸级信噪比计算提供了识别蛋白质新功能域的可能性。研究。考虑到在离子通道的关键位置, 如孔隙域、选择性滤波器、s2 跨膜域和朝中 q1 的 kcne1 结合域, 对高致病性信噪比进行了观察, 确定了一个区域内的 "致病性高峰"没有已知功能的蛋白质可能暗示一个新的关键领域。例如, 已确定 lqts 相关突变的致病性达到明显的峰值, 将其归属于kcnh2编码的 kcnh2 (kv11.1) 的氨基酸残留912-930。该蛋白质的这一区域没有可识别的功能域, 但表现出 lqts 相关突变¹⁴的明显倾向。随着蛋白质拓扑知识的扩展, 更复杂的蛋白质组学可以在未来提高这种方法的分辨率, 从分析信噪比沿蛋白质的主要结构, 包括其二级, 三级, 或第四纪结构。在这一分析中增加了先进的计算科学, 如机器学习和人工智能, 为识别病理遗传变异与基于人群的遗传变异之间的新模式提供了机会, 如果这些基因变异的可靠数据库可以生成²⁹^,³⁰。反过来, 这种方法可以帮助更好地描述和预测特定疾病的基因组学表型关系, 并与个人的疾病预测前概率结合使用, 以提高基因检测的诊断产量。此外, 这种分析可能会发现新的蛋白质生物学, 并识别人类基因组中的新位点, 这些位点在改变时与疾病显现为特征。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

作者没有什么可透露的。

Acknowledgments

apl 由国家卫生研究院 k08-hl136839 提供支持。

Materials

Name	Company	Catalog Number	Comments
1000 Genome Project	N/A	www.internationalgenome.org
ClinVar	N/A	www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser	N/A	uswest.ensembl.org/index.html
Excel	Microsoft	office.microsoft.com/excel/	Used for all example formulas and functions
Exome Aggregation Consortium	N/A	www.exac.broadinstitute.org
Genome Aggregation Database	N/A	www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database	N/A	www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database	N/A	www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database	N/A	www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project	N/A	www.evs.gs.washington.edu/EVS/
SnapGene	GSL Biotech LCC	www.snapgene.com
University of California, Santa Cruz Human Genome Browser	N/A	www.genome.ucsc.edu