Summary
在这里,我们提出了一个协议,以有效地访问和分析许多人类和模型生物体数据库。该协议演示了使用 MARRVEL 分析从下一代测序工作中发现的候选致病变异。
Abstract
通过全外体/基因组测序,人类遗传学家识别与疾病表型分离的罕见变异。要评估特定变异是否致病性,必须查询多个数据库,以确定相关基因是否与遗传疾病有关,特定变异之前是否报告过,以及模型生物体中有哪些功能数据数据库,可能提供有关基因在人类中功能的线索。MARRVEL(稀有变异传播模型生物群聚合资源)是一站式数据收集工具,用于7种模型生物体中的人类基因和变异及其正交基因,包括小鼠、大鼠、斑马鱼、果蝇、线虫、裂变酵母和萌芽酵母。在本协议中,我们概述了 MARRVEL 可用于什么用途,并讨论了如何使用不同的数据集来评估已知致病基因中具有未知意义的变体 (VUS) 或不确定意义基因 (GUS) 中的变体是否可能是致病。该协议将指导用户同时搜索多个人类数据库,从具有或没有感兴趣的变体的人类基因开始。我们还讨论如何利用来自OMIM、EXAC/gnomAD、克林瓦尔、Geno2MP、DGV和DECHIPHER的数据。此外,我们说明如何解释与每个人类基因相关的模型生物体中正交候选基因、表达模式和GO术语的列表。此外,我们讨论了所提供的价值蛋白质结构域注释,并解释了如何使用多物种蛋白质对齐功能来评估感兴趣的变体是否影响进化保护的域或氨基酸。最后,我们将讨论此网站的三个不同的用例。MARRVEL 是一个易于访问的开放访问网站,专为临床和基础研究人员设计,是功能研究设计实验的起点。
Introduction
下一代测序技术在研究和临床基因实验室中的应用正在扩大。全外显子 (WES) 和全基因组测序 (WGS) 分析揭示了已知致病基因中许多未知意义 (VUS) 的罕见变异,以及尚未与孟德尔病相关的基因变异(GUS:不确定基因)显著性)。在临床序列报告中列出基因和变异列表,医学遗传学家必须手动访问多个在线资源,以获取更多信息,以评估哪个变异可能负责感兴趣的患者中的特定表型.这个过程非常耗时,其有效性在很大程度上取决于个人的专业知识。虽然已经发表了几篇指导性文件,但WES和WGS的解释需要人工整理,因为尚有一个标准化的变体分析方法。对于VUS的解释,关于先前报告的基因型-表型关系、继承方式和一般人群中等位基因频率的知识变得有价值。此外,了解该变异是否影响关键蛋白质领域,或进化保存的残留物可能会增加或降低致病性的可能性。为了收集所有这些信息,人们通常需要浏览10-20个人体和模型生物体数据库,因为这些信息分散在万维网上。
同样,研究特定基因和途径的模型生物科学家往往有兴趣将他们的发现与人类疾病机制联系起来,并希望利用人类基因组学领域产生的知识。然而,由于人类基因组数据集的迅速扩展和演变,确定提供有用信息的数据库一直面临挑战。此外,由于大多数模型生物体数据库是为每天使用特定生物体的研究人员设计的,例如,小鼠研究人员很难在果蝇数据库中搜索具体信息,反之亦然。与医学遗传学家进行的变异解释搜索类似,识别有用的人类和其他模型生物体信息非常耗时,并且严重依赖模型生物体研究人员的背景。MARRVEL(用于稀有变异Expof的模型生物体聚合资源)4是一种为两组用户设计以简化其工作流程的工具。
MARRVEL(http://marrvel.org)被设计为一个集中的搜索引擎,以高效和一致的方式为临床医生和研究人员系统地收集数据。有了来自20个或更多公开数据库的信息,这个程序允许用户快速收集信息,并访问大量的人类和模型生物体数据库,而无需重复搜索。搜索结果页还包含指向原始信息来源的超链接,允许个人访问原始数据并收集来源提供的其他信息。
与许多需要以 VCF 或 BAM 文件形式输入大量排序数据以及安装通常专有/商业软件的变体优先级工具不同,MARRVEL 可在任何 Web 浏览器上运行。只要一台连接到互联网,就可以不带成本地使用,并与便携式设备(如智能手机、平板电脑)兼容。我们选择这种格式,因为许多临床医生和研究人员通常需要一次搜索一个或多个基因和变异。请注意,我们正在为 MARRVEL 开发批处理下载和 API(应用程序编程接口)功能,以便在必要时允许用户通过自定义查询工具一次整理数百个基因和变体。
由于应用程序范围广泛,在此协议中,我们将介绍一种涵盖广泛的方法,用于浏览 MARRVEL 显示的不同数据集。代表结果部分将介绍针对特定用户需求定制的更有针对性的示例。需要注意的是,MARRVEL的输出仍然需要人类遗传学或模型生物体获得一定的背景知识,才能提取有价值的信息。我们将读者参考表,该表列出了描述由 MARRVEL 策划的每个原始数据库的功能的主要论文(表 1)。以下协议分为三个部分:(1) 如何开始搜索,(2) 如何解释 MARRVEL 人类遗传学输出,(3) 如何在 MARRVEL 中使用模型生物体数据。在"代表性结果"部分中,介绍了重点更突出、更具体的方法。MARRVEL 正在积极更新,因此请参阅当前网站的常见问题页面,了解有关数据源的详细信息。我们强烈建议 MARRVEL 的用户注册,以便通过 MARRVEL 主页底部的电子邮件提交表单接收更新通知。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1. 如何开始搜索
- 对于人类基因和基于变异的搜索,转到步骤 1.1.1.-1.1.2。对于基于人类基因的搜索(无变体输入),转到步骤 1.2。有关基于基因的模型生物体搜索,请参阅步骤 1.3.1.-1.3.2。
- 转到http://marrvel.org/的 MARRVEL4主页。首先输入人类基因符号。确保候选基因名称列在输入框下方,每个字符条目。如果搜索结果为阴性,请使用 HUGO 基因命名委员会网站 5(HGNC;https://www.genenames.org/)确保所使用的基因符号是最新的。
- 输入人工变体。搜索栏与两种类型的变异命名法兼容:基因组位置类似于在ExAC和GnomAD6上显示变异方式,以及根据HGVS指南显示基于转录的命名法。此类格式的示例以灰色文本显示在搜索框中。对于基因组位置命名法,使用根据hg19/GRCh37的坐标。
注: 如果搜索返回错误,最常见的问题是基因符号不是最新的或变体命名不正确。在这些情况下,HGNC (https://www.genenames.org/)、穆塔利泽 7(https://www.mutalyzer.nl/)和 TransVar8(https://bioinformatics.mdanderson.org/transvar/)网站是纠正错误的绝佳资源。HGNC为所有人类基因提供官方基因符号及其别名。 - 如果在确认基因名称是最新的之后仍然遇到错误消息,请使用 Mutalyzer 和 TransVar 来检查和转换变体命名法。
- 在某些情况下,例如最近 HGNC 中基因符号更改,请尝试使用基因的同义词,请使用"反馈"选项卡与 MARRVEL 操作团队联系,以便更新源数据,因为 MARRVEL 可能无法提供正确的信息,因为数据滞后日期。
- 输入人类基因符号,将人类变体搜索栏留空。如果遇到错误,请转到 HGNC (https://www.genenames.org/) 以检查官方基因符号或尝试较旧的基因符号。
- 单击顶部横幅上的模型生物搜索选项卡 (图 1) 或转到http://marrvel.org/model。选择所选择的模型生物体,并输入一个模型生物体基因符号。单击名称自动完成时的基因符号,然后单击"搜索"。如果搜索结果为阴性,请检查模型生物体数据库中使用的官方基因符号(表 1)。
- 如果搜索结果仍为负值,则访问 DIOPT(DRSC 集成正射学预测工具,https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl)和 HCOP(https://www.genenames.org/tools/hcop/),以评估是否没有良好的预测正射感兴趣的基因。DIOPT是由DRSC(果蝇RNAi筛查中心)运行的正交预测搜索引擎,HCOP是由HGNC开发的一个类似的套件。
注: 使用 BLAST (https://blast.ncbi.nlm.nih.gov/Blast.cgi) 的其他搜索可能允许用户查找 DIOPT 和 HCOP 中使用的预测算法可能遗漏的正交日志。 - 单击底部的MARRVEL,查看所选择的人类正交仪。检查DIOPT得分9和最佳得分从人类基因模型有机体?用于人类基因的选择。继续执行步骤 2。
注: DIOPT 分数9 (https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) 是预测两个生物体中的一对基因彼此正交的正交预测算法值。有关这些值和用于计算此分数的特定算法的详细信息,请参阅 Hu 等人9。当从人类基因到模型生物体的最佳分数? 是的,它表明人类基因更有可能是一个真正的人类正交基因感兴趣的基因,但可能有例外,特别是当多个人类基因是正交在进化过程中由于基因复制事件而形成的多个模型生物体基因。如果感兴趣的基因是复杂基因家族的成员,在多个物种中经历了不同的进化,用户应确定一份对感兴趣的基因家族进行了广泛的遗传分析的出版物,以识别最可能正交候选基因。
2. 如何解释MARRVEL人类基因输出的基因和变异搜索
注:在结果页上,显示七个人类数据库(表1,图1)。对于每个输出框,右上角有一个外部链接按钮(带对角箭头的小框),该按钮将链接到原始数据库以了解更多详细信息。
- 单击OMIM(人类中的在线门德利继承,https://www.omim.org/)10,显示的第一个数据库。
注:OMIM是一个人工整理的数据库,汇总和汇总人类遗传疾病和特征的信息。- 使用 OMIM 中的人类基因描述框简要概述有关基因和基因产物的已知情况。
- 使用基因-表型关系框确定此基因是否已知是致病基因。此框提供手动策划的已知疾病或表型关联与感兴趣的基因。
- 使用OMIM 框中的"报告等位基因"获取 OMIM 策划的致病变异列表。
注:由于任何基因疾病关联出现在OMIM中,必须手动整理有关新疾病基因发现的出版物,因此一些时滞和/或遗漏的出版物可能会导致误解。建议用户执行 PubMed (https://www.ncbi.nlm.nih.gov/pubmed/) 搜索,以查看最近的文献(参见 4.1.2.)。有关 OMIM 中策划的其他信息,请参阅 Amberger10,11。
- 点击EXAC(http://exac.broadinstitute.org/6和侏儒(基因组聚合数据库,http://gnomad.broadinstitute.org/),基于WES和WGS的大型人口基因组数据库,这些人群被选定排除严重儿科疾病。
注: ExAC 包含 £60,000 WES,而 gnomAD 包含 £120,000 WES 和 £15,000 WGS。ExAC 和 gnomAD 都可以用作控制人群数据库,尤其是对于严重的儿科疾病,但其解释需要一定程度的谨慎。一般来说,gnomAD 可被视为 ExAC 的更新和扩展版本,因为 ExAC 中包含的大多数队列也包含在 gnomAD 中。但是,由于存在一些例外情况(分别参见http://exac.broadinstitute.org/about和http://gnomad.broadinstitute.org/about中的队列信息),MARRVEL 会显示来自这两个源的数据。- 使用控制种群基因摘要框获取基因级统计数据,如在一般人群中发现功能丧失 (LOF) 等位基因的概率。这在ExAC中称为pLI(LOF不耐受概率)分数,可用于推断特定基因的LOF等位基因的单一拷贝可能通过单倍作用不足机制导致显性疾病的可能性。
注:查看基因的pLI评分有其价值,特别是当处理与de novo变异相关的严重儿科疾病时。如果一个基因的pLI评分为0.00,这意味着它对LOF变异具有高度的耐受性,因此该基因不太可能通过占主导地位的单倍体功能机制引起疾病。然而,这并不一定排除其他主要功能增益(GOF)或占主导地位的负中介机制可能导致疾病。此外,导致隐性疾病的基因可能具有较低的pLI分数,因为职业预计将在一般人群中发现。另一方面,如果一个基因的pLI评分为1.00,则丢失该基因的一个副本可能对人类健康有害。多米诺(https://wwwfbm.unil.ch/domino/)等网站中的其他搜索也可以结合使用,以评估特定基因中导致显性紊乱的变异的可能性。 - 使用接下来的两个框分别获取 ExAC 和 gnomAD 中感兴趣的变体的等位基因频率,以帮助解释该变异是否具有致病性,具体取决于患者是否患有显性疾病或隐性疾病。仅当用户在启动搜索时输入变体信息时,才会显示此框。
注:如果假设隐性疾病情景和感兴趣的基因的pLI分数较低,则应注意此处列出的等位基因频率。一些遗传学家可能建立一个截止点0.005至0.0001作为致病变异的最大等位基因频率,可能导致严重的隐性遗传性疾病2。另一方面,如果假设一个主导疾病情景,则不太可能在对照人群中找到相同或类似变异。同样,这需要谨慎,因为患有晚发性疾病、轻度表现疾病、精神疾病或未通过ExAC/gnomAD研究人员筛查的疾病的个人可能仍然包括在内,并且该变种可能仍然是主要致病性变异。此外,在这些数据库中发现一些与儿科疾病有关的变异实例12、13、14,可能是由于不完全的渗透或体细胞马赛克13 ,15,16.此外,虽然ExAC和gnomAD将显示同源状态中的变体,但它不会指示在复合杂音状态中是否发现任何变异。最后,由于这些数据库中发现的某些变体由于测序技术挑战(例如序列覆盖率低、重复序列),这些数据库中的某些变体被标记为置信度低。为了更仔细地查看这些数据集,建议用户使用外部链接按钮访问原始的 ExAC 和 gnomAD 网站以获取其他信息。
- 使用控制种群基因摘要框获取基因级统计数据,如在一般人群中发现功能丧失 (LOF) 等位基因的概率。这在ExAC中称为pLI(LOF不耐受概率)分数,可用于推断特定基因的LOF等位基因的单一拷贝可能通过单倍作用不足机制导致显性疾病的可能性。
- 单击Geno2 MP(基因型到孟德尔现象型浏览器,http://geno2mp.gs.washington.edu/Geno2MP/),华盛顿大学孟地遗传学中心基于 WES 的数据集合。它包含约9,600个外体(截至2019年1月18日)受影响的个人和未受影响的亲属与一些型板描述(图1)。
- 使用疾病总体框获取此队列中兴趣变体的等位基因频率。
- 使用基因-表型关系框获取具有兴趣变体的个人的 HPO(人类表型本体)17 术语。这是寻找可能患有相同疾病的患者的众多方法之一。
注意:如果怀疑感兴趣的基因与患者的疾病有关,并且 Geno2MP 中存在匹配,则除了显示的内容之外,数据源中可能存在其他重要信息。- 单击 Geno2MP 上基因特定页面的外部链接按钮,筛选与患者相似的突变(例如,感知错误、LOF),并仔细查看变异列表。记下 CADD18得分较高的变体,然后单击 HPO 配置文件。例如,CADD 分数高于 20 分在所有预测为有害变体中排名前 1%,高于 10 的 CADD 分数在前 10% 内。HPO术语提供了人类表型的标准化描述。在这里,确保检查该变体是在受影响的个体中还是在亲属中标识的。
- 如果在与患者同一器官系统中受影响的患者身上发现变异,请考虑使用电子邮件表单使用 Geno2MP 网站上提供的功能联系将这些病例提交给 Geno2MP 的医生。
注意:并非所有医生都回答这样的询问,所以应该探索其他途径的病人匹配。收集受相同疾病影响的患者群体的其他方法包括使用诸如 GeneMatcher19 (https://www.genematcher.org/) 等工具和其他数据库,这些数据库属于匹配器交换19、20 (https://www.matchmakerexchange.org/)。有关匹配21的更多信息,请参阅随附的 JoVE 文章。
- 使用由美国国家卫生研究院 (NIH) 支持的ClinVar (https://www.ncbi.nlm.nih.gov/clinvar/)22数据库,研究人员和临床医生提交有或未确定致病性的变体,以进行检查单核苷酸变异(SNV)、小核苷酸和较大的拷贝数变异(CNV)。
- 使用顶行查看 ClinVar 中报告的每种变体类型的摘要(图 1)。
- 检查下面的变量列表在框中报告从ClinVar的Alleles。
注:如果初始搜索中包括一个变体,则青色中突出显示的变体都是包括感兴趣变异的基因组位置的变体 ,包括通常标记为"基因组坐标"的大型 CNV。x1(删除)和...x3 (重复)*。
- 使用DGV23(基因组变异数据库,http://dgv.tcag.ca/dgv/app/home)和DECIPHER 24(使用Ensembl资源,https://decipher.sanger.ac.uk/)在人类中基因细胞变异和表型的DatabasE收集CNV.DGV是最大的公共访问收集结构变体从超过54,000个人。该数据库包括据报告,在确定时,来自多达72个不同研究的健康个体的样本。同样,从 DECIPHER 中显示的数据包括控制总体中的常见变体。
注:由于 MARRVEL 无权显示来自 DECIPHIER 的患者派生数据,因此鼓励用户直接访问 DECIPHER 网站以访问潜在的致病性 CNV 信息。- 单击控制总体(DGV 数据库)中的复制数变体框以获取包含感兴趣基因的变体。在同一框中可以找到复制号变体的大小、子类型和引用等信息。
- 单击"通用拷贝数变体(DECIPHER 数据库)"框以获取包含感兴趣变体的基因组位置的变体。此信息可能有助于确定基因在对照个体中是否复制或删除。
注:如果对照群体中的许多个体删除了感兴趣的基因,则意味着该基因可能对LOF变异具有高度的耐受性。与低pLI分数一样,这表明该基因的单拷贝丢失不太可能通过单倍不全机制引起严重疾病。然而,这并不一定排除由特定的错感和截断等位子引起的其他主要功能增益或占主导地位的负机制(例如反变形、超态和新形态等位体)。 这些数据的可能限制包括所获取数据的来源和方法的变化,缺乏关于致病性CNV不完全渗透的信息,以及个人在收集数据后是否患上了某些疾病。
3. 如何在 MARRVEL 中使用模型生物体数据
- 使用基因功能表获取八种模型生物的以下信息,包括人类、大鼠、小鼠、斑马鱼、果蝇、C elegans、萌芽酵母和裂变酵母:
- 基因名称:由于每个基因名称都链接到各个模型生物体数据库上的基因页面,因此点击这些链接可详细了解每个模型生物体的表型信息和资源。例如,在FlyBase25 (http://flybase.org/) 上,将列出已生成的所有等位基因、其各自的表型以及公共库存中心每个等位基因的可用性。
- PubMed链接:单击PubMed 链接可转到与每个生物体感兴趣的基因相关的出版物列表。如果不使用这些链接,直接在 PubMed 中搜索人类基因可能会导致缺少一些使用旧基因别名来引用人类基因的出版物。同样,模型生物体基因名称可能在历史上波动过。
- DIOPT9分:检查此列,了解有多少正交预测算法预测该基因可能是感兴趣的人类基因的正交。可以使用 DIOPT 分数 3 或以上作为合理的截止点来识别可靠的正交线候选项。然而,在某些情况下,由于同源性有限,真正的正交只有1的DIOPT分数。在基因功能表的顶部,取消选中"只显示最佳DIOPT评分基因"框,以显示通常包括非正交基因的同源基因的所有候选项。
- 表达:查看此列,了解在人类或模型生物体数据库中报告感兴趣的基因或蛋白质表达的组织的列表。人类基因和蛋白质表达数据分别来自GTEx26(https://gtexportal.org/)和人类蛋白质地图集27(https://www.proteinatlas.org/)。 有些按钮带有弹出式链接,例如用于使用热图显示表达式模式的"人"和"苍蝇",而另一些则超链接到相应的模型生物体数据库页面。
- 基因本体论28 (GO) 术语:按实验证据代码进行筛选,并从各自的人体或模型生物体数据库中获取。不会显示基于"计算分析证据代码"和"电子注释证据代码"(预测)的 GO 术语。如有必要,请访问每个模型有机体网站以收集此信息。
- 其他链接,如君主倡议29 (https://monarchinitiative.org/) 和IMPC30(http://www.mousephenotype.org/):使用君主倡议超链接导航到现象网格页面对于特定的人类基因,一个图表,它提供了与已知人类疾病相关基因和具有表型重叠的模型有机体突变体相关的表型之间的快速比较。如果鼠标基因具有由国际小鼠表型联盟 (IMPC) 制作或规划的挖空鼠标,"IMPC"链接到页面,详细说明挖空鼠标的表型及其在公共库存中心的可用性。
- 人类蛋白质领域:使用人类基因蛋白域盒获得人类基因的预测蛋白域。数据来自DIOPT,它使用Pfam(https://pfam.xfam.org/)和CCD(保留域数据库,https://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml)。 由于在两个源中添加的域中有些重叠,单个残渣可能多次加称。
- 使用多蛋白对齐框获得 DIOPT9生成的氨基酸多重对齐,包括人 (hs)、大鼠 (rn)、小鼠 (mm)、斑马鱼 (dr)、果蝇 (dm)、蠕虫 (ce) 和酵母 (sc 和 sp)。要突出显示感兴趣的氨基酸,请向下滚动到框的底部,然后输入下面的氨基酸数,感兴趣的氨基酸将以青色突出显示。校准由DIOPT提供,并使用MAFFT对准器(氨基酸或核苷酸序列的多重对齐程序,https://mafft.cbrc.jp/alignment/software/31 )。
注: 如果基于数字突出显示的氨基酸不是预期氨基酸,则可能是由于对齐时使用的拼接等形不同。原则上,DIOPT 使用最长的等形在此框中显示。此外,对于未很好地保存的基因片段,使用默认参数对齐多物种序列可能不是最佳的。我们建议使用其他网站和软件,如Clustal欧米茄和ClustalW/X(http://www.clustal.org/)32,以相应地优化对齐参数和矩阵。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
人类遗传学家和模型生物体科学家各自以不同的方式使用MARRVEL,每个方法都有不同的理想结果。以下是 MARRVEL 的可能用途的三个小插曲。
评估主导性疾病变异的致病性
访问 MARRVEL 的大多数用户使用本网站来分析罕见人类变异可能导致某种疾病的可能性。例如,在 TBX2中发现一个误感 (17:59477596 G>A, p.R20Q) 变体在具有畸形特征和裂口、心脏缺陷、骨骼和数字异常、甲状腺相关的小家族中以常染色体占主导地位的方式分离表型,和免疫缺陷12。母亲和两个受这些症状影响的孩子携带了变种,而父亲没有。9岁的儿子有最严重的表型,而36岁的母亲和6岁的女儿有较轻的这种疾病。为了评估此变异是否可能致病性,可以通过在http://MARRVEL.org在起始页上输入基因和变体来启动 MARRVEL 搜索。请注意,变体搜索栏要求在变体前面删除Chr,如果原始临床报告中列出了该搜索栏以指示"染色体"。在原始研究时,结果页显示没有与此基因相关的OMIM表型,并且此变异仅在gnomAD中发现一次,但在ExAC、ClinVar或Geno2MP中找不到。人们可能认为,对一个人的这种识别可能是反对p.R20Q是一种致病变异的证据,但重要的是要注意到,家庭的母亲表现出一种温和的疾病形式。在 1/~150,000 个体中发现的变体确实是一种非常罕见的变体,并且对具有相同变体的个体的识别可以通过降低表达性或渗透性来解释。在基因功能表中,通常有助于检查基因是否在人类相关组织中表达(通过GTEx和蛋白质图集),以参考患者的表型。在这种情况下,表达模式匹配,因为患者在多个组织中有表型,并且该基因也被广泛表达,包括心脏和免疫相关器官。
根据MARRVEL中显示的模型生物体信息,人们可以很快地看到,该基因从C.elegans和果蝇保存到人类和感兴趣的氨基酸,p.R20在整个进化过程中也高度保存,如图2(请注意,rat Tbx2在此区域中未很好地对齐,可能是由于用于对齐的转录本)。小鼠和斑马鱼中的体形信息表明,该基因影响许多组织的发展或功能,包括心血管系统、颅面/口感和数字。总之,这些数据表明,这种变异可能是致病的,进一步的功能研究是有价值的。考虑到这种基因和变异在像C.elegans和Drosophila这样的生物体中保存下来,与在脊椎动物模型生物中进行同样的实验相比,无脊椎动物的功能研究将更快、更便宜。如斑马鱼,老鼠和老鼠。请参阅哈尼什等人21所附的文章,其中介绍了我们如何设计和执行本案例12的功能性检测。该基因/变异参与这个家族的疾病,通过识别一个不相关的8岁男性患者与重叠的表型与德新错感变异在同一基因使用GeneMatcher进一步加强。两个家族中的变异都被发现使用果蝇实验发挥作用,进一步支持了TBX2中罕见变异的致病性。 这种疾病最近被策划为OMIM的"椎性异常和可变内分泌和T细胞功能障碍(VETD,OMIM#618223)"。有关 TBX2 17:59477596 G>A 的整个输出,请参阅图3。
评估隐性疾病变异的致病性
分析主导性疾病和隐性疾病中的人类变异有显著差异。例如,pLI 分数、次要等位基因频率和控件总体中是否存在删除内容变得不那么重要,因为需要两个等位基因来显示任何表型。
Yoon等人33和王等人4例详细介绍了隐性疾病分析的一个实例,本文对此进行了总结。一名15岁的女孩表现出发育迟缓,小头症,失常,运动障碍,肌张力减退,语言障碍,大脑异常,和下垂的语料库33。遗嘱人,她未受影响的父母,和一个未受影响的兄弟姐妹接受了WES。在筛选了在种群中独有的和罕见的变异后,13个不同基因的变异仍然存在。按照此处所述的协议对13个候选项进行手动筛选和分析,结果将OGDHL中的一个特定变体列为功能研究的良好候选者。导致在OGDHL(10:50946295 G>A)中优先于其他变异的p.S778L的关键信息包括:(1)在OMIM中没有以前的疾病关联,(2)对照人群中未发现变异,(3)与微管和线粒体,两个系统,有许多与神经系统疾病的联系34,35, (4) 高度表达在人类小脑, 这个患者严重影响的组织, 和 (5) 兴趣的变异影响高度保存氨基酸(从酵母到人类),位于催化领域4。此基因的 pLI 评分为 0.00,但这不影响此变种/基因的优先级,因为我们怀疑遗传的隐性模式,并且此基因中有害变异的携带者可以存在于一般人群中。有关OGDHL 10:50946295 G>A 的 MARRVEL 输出,请参阅图4。
平行进行的模型有机体研究表明,OGDHL的果蝇正交仪Ogdh(也称为Nc73EF)的丧失,在神经系统中表现出一种与普罗万的神经紊乱33。在果蝇的功能研究表明,兴趣的变异(p.S778L)影响蛋白质功能,使这种疾病的一个强有力的候选基因。自那时以来,关于OGDHL中与一种新型神经系统疾病相关的潜在致病变异的信息最近被纳入OMIM(https://www.omim.org/entry/617513),但尚未被指定为疾病-表型数字,因为截至2019年1月只报告了一例病例。
感兴趣的模型生物基因的人类正交是否与遗传疾病有关?
许多模型生物体研究人员可能有兴趣看看他们感兴趣的基因的人类正交谱是否可能与遗传疾病有关。在此示例中,我们将搜索苍蝇诺奇(N) 基因的人类正交谱是否与遗传疾病有关。为此,我们将首先执行"模型生物搜索(1.3.1.-1.3.2.)",并选择"果蝇黑色素"作为物种名称,"N"作为模型生物体基因名称。预测的四个人类正交本的这种苍蝇基因将显示在结果窗口中为NOTCH1,NOTCH2,NOTCH3和NOTCH4。由于飞行N和每个人类基因之间的同源性程度,这四个基因有不同的DIOPT分数(NOTCH1为10/12,NOTCH2为8/12,NOTCH3为5/12)。考虑到"从人类基因到苍蝇的最佳分数"被列为"是"的所有四个基因,反向搜索从每个人类基因拿起苍蝇N基因作为最有可能的正交候选。事实上,这四个人类NOTCH基因被认为是从一个Notch基因产生的,在脊椎动物谱系从无脊椎动物谱系分裂后发生的两轮全基因组复制事件中产生。通过点击每个人类基因的"MARRVELIT"按钮,人们可以获得NOTCH1-4的基于基因的输出。 在每个基因的结果页上,OMIM的顶盒表明,虽然NOTCH1、2和3与遗传疾病有关,但NOTCH4目前与任何人类疾病无关。请注意,根据全基因组关联研究(GWAS)37,38,NOTCH4中的变异是否与精神分裂症有关,一直争论不休。 由于 OMIM 通常不整理 GWAS 数据,但有一些例外(例如APOE、PTPN22),因此此信息无法从 OMIM 窗口中获得。同样,由于OMIM一般不整理与癌症相关的体细胞突变信息,因此除了少数例外情况外,不会列出有关这些基因体细胞突变是否与某些癌症类型相关的信息。 RB1, BRCA1)通过单击PubMed或君主框,可以识别一些未在 OMIM 中策划的疾病相关文件。参见图5,了解苍蝇基因N和人类基因NOTCH4的整个MARRVEL输出。
图 1.来自 MARRVEL 搜索的代表性输出。此特定示例显示了"TBX2/17:59477596 G>A"(http://marrvel.org/search/pair/TBX2/17:59477596%20G%3EA)的基因/变异搜索。左侧的边栏支持通过数据输出进行导航。请注意,此处的"外部链接"符号提供指向 UCSC 基因组浏览器 (https://genome.ucsc.edu/) 相应页面的链接。顶部的选项卡允许执行基于基因的模型生物体搜索,获取有关 MARRVEL 的其他信息并提供用户反馈。"搜索结果"面板显示来自图像中指示的来源的基因和变体信息。请点击此处查看此图的较大版本。
图 2.TBX2模型生物体正交表和多物种排列的摘要。A) MARRVEL 根据 DIOPT 工具为每个物种选择顶级正交候选项。例如,为果蝇双基因显示的DIOPT分数为10/12,这意味着DIOPT使用的12个正交预测程序中有10个预测,即bi是人类TBX2最有可能的飞行正交。由于25%的基因在斑马鱼中与人类相比是重复的,MARRVEL在适用时显示两个寄生基因(在本例中为tbx2a和tbx2b)。B)多物种对齐窗口的快照。通过选择特定的生物体[在本例中为人类(hs)]并输入感兴趣的氨基酸,可以突出青色中的特定氨基酸。在此示例中,人类 TBX2 的 p.R20 似乎被保存在小鼠 (mm1)、 斑马鱼正交 (dr1 和 dr2)、果蝇(dm1) 和C. elegans (ce1) 中。与其他物种相比,Rat Tbx2 似乎不能很好地对齐,这很可能是由于 DIOPT 用于执行多物种对齐的等形。请点击此处查看此图的较大版本。
图 3: TBX2 的整个输出 17:59477596 G>A。请点击此处下载此文件。
图 4: OGDHL 10:50946295 G>A 的 MARRVEL 输出。请点击此处下载此文件。
图 5:为苍蝇基因N和人类基因NOTCH4输出的MARRVEL输出。 请点击此处下载此文件。
数据库类型 | 数据库名称 | URL/链接到数据库 | 纳入 MARRVEL 的理由 | 参考(PMID) |
人类遗传学 | 克林瓦尔 | https://www.ncbi.nlm.nih.gov/clinvar/ | ClinVar 是一个公共档案报告的人变异和表型之间的关系,与支持的证据。研究人员和临床医生报告的解释变异对于分析变异致病的可能性很有价值。 | PMID: 29165669 |
人类遗传学 | 破译 | https://decipher.sanger.ac.uk/ | MARRVEL 上显示的 DECIPHER 数据包括来自控制总体的常见变体。显示的数据包括涵盖输入变异的基因组位置的结构变体。DECIPHER 还包含受影响个人的变体和型板信息,但只能通过他们的网站直接访问。 | PMID: 19344873 |
人类遗传学 | DGV | http://dgv.tcag.ca/dgv/app/home | 据我们所知,DGV 是最大的公共访问集合的结构变体从超过 54,000 个人。该数据库包括据报告,在确定时,来自多达72个不同研究的健康个体的样本。这些数据的可能限制包括所获取数据的来源和方法的变化,缺乏关于致病性CNV不完全渗透的信息,以及个人在收集数据后是否会发展相关疾病。 | PMID: 24174537 |
矫形学预测 | DIOPT | https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl | DIOPT根据人类感兴趣的基因的蛋白质序列,提供了六个模型生物体中预测最佳正畸的多个蛋白质序列排列。校准将提供有关特定氨基酸和功能性蛋白质域的保护信息。 | PMID: 21880147 |
人类基因/脚本命名 | 恩塞姆布尔 | https://useast.ensembl.org/ | Ensembl 基因 ID 用于链接不同的数据库。 | PMID: 29155950 |
人类遗传学 | EXAC | http://exac.broadinstitute.org/ | ExAC 包含 60,000 多个外兆体,除 gnomAD (http://gnomad.broadinstitute.org/)外,是针对患有严重早发孟代表型的个人而选择的最大公共外兆体集合。就 MARRVEL 而言,ExAC 和 gnomAD 是计算小等位基因频率的最佳控制总体数据集。我们提供来自 ExAC 的两组输出。第一个输出是预期与观察到的误感和功能丧失 (LOF) 等位基因数量的以基因为中心的概述。称为 pLI(LOF 不耐受概率)的指标范围在 0.00 到 1.00 之间,反映了育龄前某些变体的选择性压力。pLI评分为1.00意味着该基因对任何LOF变异非常不耐受,该基因的单倍不全可能导致人类疾病。第二个输出是来自 ExAC 的数据,这些数据与特定变体相关。如果在 ExAC 中看到相同的变体,MARRVEL 将显示次要等位基因频率。 | PMID: 27535533 |
主要模型有机体数据库 | 飞行基地(德罗索菲拉) | http://flybase.org | MARRVEL 收集和显示来自多个模型生物体数据库的数据。我们使用GO术语汇总了基因的分子、细胞和生物功能。最有可能的正交由 DIOPT 派生。 | PMID:26467478 |
模型有机体数据库集成工具 | 基因2功能 | http://www.gene2function.org/search/ | MARRVEL 与 DIOPT 和 Gene2 功能合作,提供"模型生物搜索"功能。超链接提供给用户访问其网站,该网站集成了许多 MO 数据库,并以与 MARREL 不同的样式显示它们。 | PMID: 28663344 |
人类遗传学 | 吉诺2MP | http://geno2mp.gs.washington.edu/Geno2MP/ | Geno2MP 是华盛顿大学孟地遗传学中心的样本集合。它包含9,650名受影响个人和未受影响的亲属的外体。此数据库将型板和继承信息的模式链接到特定的等位基因。对于表型,通过比较患者的受影响器官系统与Geno2MP中受影响的个体,可以发现潜在的匹配。等位基因、继承模式和表型的匹配提供了变异可能致病的可能性增加。但是,由于样本量小,负关联不一定降低变异的致病优先级。原始来源提供了与患者主治医生联系的机制。 | 不适用 |
人类遗传学 | 格诺姆阿德 | http://gnomad.broadinstitute.org/ | gnomAd共包含123,136个外兆体序列和15,496个来自不相关的个体的全基因组序列,作为各种疾病特定和种群基因研究的一部分。ExAC 数据的大部分被合并到 gnomAD 中。在 MARRVEL 中,我们目前显示与特定变体相关的总体频率。 | PMID: 27535533 |
基因本体论 | GO 中心 | http://www.geneontology.org/ | MARRVEL仅显示从每个基因的实验证据中衍生的基因本体(GO)术语(分子功能、细胞组分和生物过程)。它们被"实验证据代码"和GO术语基于"计算分析证据代码"和"电子注释证据代码"(预测)进行过滤。 | PMID: 10802651, 25428369 |
人类基因/蛋白质表达 | GTEx | https://gtexportal.org/home/ | MARRVEL在每个基因的人体组织中显示mRNA和蛋白质表达模式。表达模式可以增加对患者和/或模型生物体中观察到的表型的洞察。 | PMID: 29019975, 23715323 |
人类基因命名法 | HGNC | https://www.genenames.org/ | HGNC 官方基因符号用于 MARRVEL 搜索。 | PMID: 27799471 |
主要模型有机体数据库 | IMPC(鼠标) | http://www.mousephenotype.org/ | MARRVEL 提供了一个超链接,用于在 IMPC 网站上共同响应小鼠基因页面。如果IMPC制作了一只敲出的小鼠,那么一份详尽的检测清单及其结果将公开提供,并在基因丢失时提供对表型的洞察。一些信息在MGI中策划,但可能有一个时滞。 | PMID: 27626380 |
主要模型有机体数据库 | MGI(鼠标) | http://www.informatics.jax.org/ | MARRVEL 收集和显示来自多个模型生物体数据库的数据。我们使用GO术语汇总了基因的分子、细胞和生物功能。最有可能的正交由 DIOPT 派生。 | PMID:25348401 |
模型有机体数据库集成工具 | 君主倡议 | https://monarchinitiative.org/ | MARRVEL提供了一个链接,以人类基因的君主倡议。此网格提供模型生物体的表型和已知的人类疾病之间的比较。 | PMID: 27899636 |
人类变异命名法 | 穆塔利泽 | https://mutalyzer.nl/ | MARRVEL使用穆塔利泽的API将不同的变异命名法转换为基因组位置。 | PMID: 18000842 |
人类遗传学 | OMIM | https://omim.org/ | 我们从OMIM中抽取的三个主要信息是:基因功能、相关表型和报告的等位基因。知道一个基因是否与已知的孟德尔表型(+条目)有关是有帮助的,其分子基础是已知的。没有这些知识的基因是新基因发现的候选人。对于属于此类别的基因,如果患者的表型与报告的疾病和表型以及文献中患者的表型不匹配,则这增加了为感兴趣的基因提供表型扩张的机会。 | PMID: 28654725 |
主要模型有机体数据库 | 庞基础(裂变酵母) | https://www.pombase.org/ | MARRVEL 收集和显示来自多个模型生物体数据库的数据。我们使用GO术语汇总了基因的分子、细胞和生物功能。最有可能的正交由 DIOPT 派生。 | PMID:22039153 |
文学 | Pubmed | https://www.ncbi.nlm.nih.gov/pubmed/ | MARRVEL 提供了指向基于"Gene"的 PubMed 搜索的超链接。单击此链接将允许搜索基于先前基因名称和符号的感兴趣的基因的生物医学论文。 | 不适用 |
主要模型有机体数据库 | RGD(大鼠) | https://rgd.mcw.edu/ | MARRVEL 收集和显示来自多个模型生物体数据库的数据。我们使用GO术语汇总了基因的分子、细胞和生物功能。最有可能的正交由 DIOPT 派生。 | PMID:25355511 |
主要模型有机体数据库 | SGD(发芽酵母) | https://www.yeastgenome.org/ | MARRVEL 收集和显示来自多个模型生物体数据库的数据。我们使用GO术语汇总了基因的分子、细胞和生物功能。最有可能的正交由 DIOPT 派生。 | PMID: 22110037 |
人类基因/蛋白质表达 | 人类蛋白质地图集 | https://www.proteinatlas.org/ | MARRVEL在每个基因的人体组织中显示mRNA和蛋白质表达模式。表达模式可以增加对患者和/或模型生物体中观察到的表型的洞察。 | PMID: 21752111 |
主要模型有机体数据库 | 蠕虫基地(C.埃莱甘人) | http://wormbase.org | MARRVEL 收集和显示来自多个模型生物体数据库的数据。我们使用GO术语汇总了基因的分子、细胞和生物功能。最有可能的正交由 DIOPT 派生。 | PMID:26578572 |
主要模型有机体数据库 | ZFIN(斑马鱼) | https://zfin.org/ | MARRVEL 收集和显示来自多个模型生物体数据库的数据。我们使用GO术语汇总了基因的分子、细胞和生物功能。最有可能的正交由 DIOPT 派生。 | PMID:26097180 |
表 1.MARRVEL 的数据源列表。MARRVEL 获取数据的所有数据库都列在此表中。对于每个数据库,我们列出数据库的类型、URL/链接、在 MARRVEL 中包括的理由和主要引用。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
该协议中的关键步骤包括初始输入(步骤 1.1-1.3)和输出的后续解释。搜索结果为负的最常见原因是基因和/或变异的多种描述方式。虽然 MARRVEL 会按计划更新,但这些更新可能会导致 MARRVEL 链接到的不同数据库之间的断开连接。因此,故障排除的第一步是始终检查基因或变体的替代名称是否会导致成功的搜索结果。如果仍无法解决,请使用http://marrvel.org/message中的反馈表单向开发团队发送消息。
MARRVEL 的一个限制是,它尚未包括基因和变异分析所需的所有有用数据库。例如,目前未提供 CADD18等致病性预测算法。同样,蛋白质结构信息和蛋白质-蛋白质相互作用信息,可能也提供结构和功能联系,已知疾病导致变异的基因目前未显示在MARRVEL。在下一次重大更新中,我们计划将这些信息集成到 MARRVEL 中,此外还纳入了来自模型生物体网站、IMPC、君主倡议和基因组资源联盟 (AGR、https://www.alliancegenome.org/) 的更多表型信息。由于MARRVEL旨在促进罕见疾病研究,该计划目前侧重于生殖系变异,不提供访问体细胞变异信息。自本议定书发布时,没有整合任何癌症遗传学相关数据库。随着 MARRVEL 正在积极开发和升级,我们高度赞赏反馈,并强烈鼓励现有用户注册http://marrvel.org/message的新闻稿,以便将来再集成任何额外的数据库。
尽管来自 MARRVEL 的数据可用于确定可能致病的变体的优先级。然而,为了证明致病性,人们将需要识别其他具有相似基因型和表型的患者,或进行功能研究,以提供确凿的证据,证明兴趣变异具有与疾病状况。有关 MARRVEL 以外的其他信息的更多信息,这些信息可能有助于判断在模型有机体中是否值得实验研究的变体,请参阅随附的文章 Harnish等人21。为了采取下一步使用模型生物体来研究人类变异,人类遗传学家和模型生物体研究人员必须能够连接和协作。GeneMatcher 和其他基因组联盟是匹配者交易所联合体的成员,是推动下一步工作的资源。如果用户居住在加拿大,也可以注册在罕见疾病模型和机制网络(RDMM,http://www.rare-diseases-catalyst-network.ca/),以确定临床医生和/或模型生物体研究人员愿意合作39.日本 ( J - RDMM , https : / / irudbeyond . . ac . jp / en / index . html ) 、欧洲 ( RDMM - europe , http : / / solve - rd . eu / rdmm - europe / ) 和澳大利亚 ( 澳大利亚功能基因组学网络 : https : / / www . functionalgenomics . org . au / ) 最近采用了加拿大 RDMM 模式,以促进其国家/地区的类似合作。此外,通过使用BioLitMine(https://www.flyrnai.org/tools/biolitmine/web/)等工具,可以在以前从事过感兴趣的基因的主要研究者中寻找潜在的合作者。
最后,除了MARRVEL之外,还有许多其他跨物种数据挖掘工具,包括Gene2功能40(http://www.gene2function.org/)、君主倡议29(https://monarchinitiative.org/)和联盟。基因组资源(AGR,https://www.alliancegenome.org/)。虽然Gene2功能提供跨物种数据的访问,君主倡议提供表型比较,但MARRVEL更强调人类变异,并将人类基因组数据与模型生物体联系起来。AGR 是一项举措,涉及六个模型生物体数据库和基因本体学联盟,以统一的方式集成来自不同数据库的数据,以提高每个数据库累积的数据的可访问性。这些资源是互补的,用户应了解每个数据库的优势,以浏览社区研究人员积累的大量知识。随着MARRVEL的继续开发,我们计划包括更多与模型生物体中人类变异相关的数据库。MARRVEL的首要目标是为临床医生和研究人员提供一种易于访问的方式,通过整合有用的信息,同时尽可能保持界面简单,从而分析人类基因和变异,以便进一步研究。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
作者没有什么可透露的。
Acknowledgments
我们感谢拉米·奥兰博士、金世英博士、胡延辉(克莱尔)、英惠万、纳文·马诺哈兰、萨西达尔·帕苏普莱蒂、阿拉姆·孔让、毛东学、迈克尔·旺勒、肖-图安·曹、斯蒂芬妮·莫尔和诺伯特·佩里蒙博士,感谢他们对发展的支持。维护马尔维尔。我们感谢萨曼莎·德和J·迈克尔·哈尼什对这份手稿的投入。
MARRVEL 的初步开发部分得到了未诊断疾病网络模型生物筛选中心通过 NIH 共同基金 (U54NS093793) 和 NIH 研究基础设施计划办公室 (ORIP) (R24OD022005) 的支持。JW由NIH尤尼斯·肯尼迪·施莱佛国家儿童健康与人类发展研究所(F30HD094503)和罗伯特和贾尼斯·麦克奈尔基金会麦克奈尔博士/博士生学者项目在BCM资助。HJB还得到NIH国家普通医学研究所(R01GM067858)的进一步支持,是霍华德·休斯医学研究所的研究员。ZL由NIH国家普通医学研究所(R01GM120033)、国家老龄研究所(R01AG057339)和赫芬顿基金会支持。SY获得了NIH国家耳聋和其他通信障碍研究所(R01DC014932)、西蒙斯基金会(SFARI奖:368479)、阿尔茨海默氏症协会(新调查员研究补助金:15-364099)、纳曼家族)的额外支持。基础研究基金和卡罗琳·威斯定律分子医学研究基金。
Materials
Name | Company | Catalog Number | Comments |
Human Genetics | ClinVar | PMID: 29165669 | https://www.ncbi.nlm.nih.gov/clinvar/ |
Human Genetics | DECIPHER | PMID: 19344873 | https://decipher.sanger.ac.uk/ |
Human Genetics | DGV | PMID: 24174537 | http://dgv.tcag.ca/dgv/app/home |
Orthology Prediction | DIOPT | PMID: 21880147 | https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl |
Human Gene/Transcript Nomenclature | Ensembl | PMID: 29155950 | https://useast.ensembl.org/ |
Human Genetics | ExAC | PMID: 27535533 | http://exac.broadinstitute.org/ |
Primary Model Organism Databases | FlyBase (Drosophila) | PMID:26467478 | http://flybase.org |
Model Organism Database Integration Tools | Gene2Function | PMID: 28663344 | http://www.gene2function.org/search/ |
Human Genetics | Geno2MP | N/A | http://geno2mp.gs.washington.edu/Geno2MP/ |
Human Genetics | gnomAD | PMID: 27535533 | http://gnomad.broadinstitute.org/ |
Gene Ontology | GO Central | PMID: 10802651, 25428369 | http://www.geneontology.org/ |
Human Gene/Protein Expression | GTEx | PMID: 29019975, 23715323 | https://gtexportal.org/home/ |
Human Gene Nomenclature | HGNC | PMID: 27799471 | https://www.genenames.org/ |
Primary Model Organism Databases | IMPC (mouse) | PMID: 27626380 | http://www.mousephenotype.org/ |
Primary Model Organism Databases | MGI (mouse) | PMID:25348401 | http://www.informatics.jax.org/ |
Model Organism Database Integration Tools | Monarch Initiative | PMID: 27899636 | https://monarchinitiative.org/ |
Human Variant Nomenclature | Mutalyzer | PMID: 18000842 | https://mutalyzer.nl/ |
Human Genetics | OMIM | PMID: 28654725 | https://omim.org/ |
Primary Model Organism Databases | PomBase (fission yeast) | PMID:22039153 | https://www.pombase.org/ |
Literature | PubMed | N/A | https://www.ncbi.nlm.nih.gov/pubmed/ |
Primary Model Organism Databases | RGD (rat) | PMID:25355511 | https://rgd.mcw.edu/ |
Primary Model Organism Databases | SGD (budding yeast) | PMID: 22110037 | https://www.yeastgenome.org/ |
Human Gene/Protein Expression | The Human Protein Atlas | PMID: 21752111 | https://www.proteinatlas.org/ |
Primary Model Organism Databases | WormBase (C. elegans) | PMID:26578572 | http://wormbase.org |
Primary Model Organism Databases | ZFIN (zebrafish) | PMID:26097180 | https://zfin.org/ |
References
- Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
- Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine. 17 (5), 405-424 (2015).
- MacArthur, D. G., et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 508 (7497), 469-476 (2014).
- Wang, J., et al. MARRVEL: Integration of Human and Model Organism Genetic Resources to Facilitate Functional Annotation of the Human Genome. American Journal of Human Genetics. 100 (6), 843-853 (2017).
- Povey, S., et al. The HUGO Gene Nomenclature Committee (HGNC). Human Genetics. 109 (6), 678-680 (2001).
- Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
- Wildeman, M., van Ophuizen, E., den Dunnen, J. T., Taschner, P. E. Improving sequence variant descriptions in mutation databases and literature using the Mutalyzer sequence variation nomenclature checker. Human Mutation. 29 (1), 6-13 (2008).
- Zhou, W., et al. TransVar: a multilevel variant annotator for precision genomics. Nature Methods. 12 (11), 1002-1003 (2015).
- Hu, Y., et al. An integrative approach to ortholog prediction for disease-focused and other functional studies. BMC Bioinformatics. 12, 357 (2011).
- Amberger, J. S., Hamosh, A. Searching Online Mendelian Inheritance in Man (OMIM): A Knowledgebase of Human Genes and Genetic Phenotypes. Current Protocols in Bioinformatics. 58, 1 (2017).
- Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: leveraging knowledge across phenotype-gene relationships. Nucleic Acids Research. 47, 1038-1043 (2019).
- Liu, N., et al. Functional variants in TBX2 are associated with a syndromic cardiovascular and skeletal developmental disorder. Human Molecular Genetics. 27 (14), 2454-2465 (2018).
- Ropers, H. H., Wienker, T. Penetrance of pathogenic mutations in haploinsufficient genes for intellectual disability and related disorders. European Journal of Medical Genetics. 58 (12), 715-718 (2015).
- Shashi, V., et al. De Novo Truncating Variants in ASXL2 Are Associated with a Unique and Recognizable Clinical Phenotype. American Journal of Human Genetics. 100 (1), 179 (2017).
- Chen, R., et al. Analysis of 589,306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nature Biotechnology. 34 (5), 531-538 (2016).
- Halvorsen, M., et al. Mosaic mutations in early-onset genetic diseases. Genetics in Medicine. 18 (7), 746-749 (2016).
- Kohler, S., et al. The Human Phenotype Ontology in 2017. Nucleic Acids Research. 45 (1), 865-876 (2017).
- Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J., Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Research. 47 (1), 886-894 (2019).
- Sobreira, N., Schiettecatte, F., Valle, D., Hamosh, A. GeneMatcher: a matching tool for connecting investigators with an interest in the same gene. Human Mutation. 36 (10), 928-930 (2015).
- Sobreira, N. L. M., et al. Matchmaker Exchange. Current Protocols in Human Genetics. 95 (9), 31-39 (2017).
- Harnish, M., Deal, S., Wangler, M., Yamamoto, S. In vivo functional study of disease-associated rare human variants using Drosophila. Journal of Visualized Experiments. , (2019).
- Harrison, S. M., et al. Using ClinVar as a Resource to Support Variant Interpretation. Current Protocols in Human Genetics. 89, 11-18 (2016).
- MacDonald, J. R., Ziman, R., Yuen, R. K., Feuk, L., Scherer, S. W. The Database of Genomic Variants: a curated collection of structural variation in the human genome. Nucleic Acids Research. 42, Database issue 986-992 (2014).
- Firth, H. V., et al. DECIPHER: Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resources. American Journal of Human Genetics. 84 (4), 524-533 (2009).
- Thurmond, J., et al. FlyBase 2.0: the next generation. Nucleic Acids Research. 47, 759-765 (2019).
- Consortium, G. T. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science. 348 (6235), 648-660 (2015).
- Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas--a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
- The Gene Ontology, C. The Gene Ontology Resource: 20 years and still GOing strong. Nucleic Acids Research. , (2018).
- Mungall, C. J., et al. The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species. Nucleic Acids Research. 45 (1), 712-722 (2017).
- Meehan, T. F., et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nature Genetics. 49 (8), 1231-1238 (2017).
- Katoh, K., Rozewicki, J., Yamada, K. D. MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization. Brief Bioinform. , (2017).
- Sievers, F., Higgins, D. G. Clustal Omega for making accurate alignments of many protein sequences. Protein Science. 27 (1), 135-145 (2018).
- Yoon, W. H., et al. Loss of Nardilysin, a Mitochondrial Co-chaperone for alpha-Ketoglutarate Dehydrogenase, Promotes mTORC1 Activation and Neurodegeneration. Neuron. 93 (1), 115-131 (2017).
- Deal, S., Yamamoto, S. Unraveling novel mechanisms of neurodegeneration through a large-scale forward genetic screen in Drosophila. Frontiers in Genetics. 9, (2019).
- Matamoros, A. J., Baas, P. W. Microtubules in health and degenerative disease of the nervous system. Brain Research Bulletin. 126, Pt 3 217-225 (2016).
- Theodosiou, A., Arhondakis, S., Baumann, M., Kossida, S. Evolutionary scenarios of Notch proteins. Molecular Biology and Evolution. 26 (7), 1631-1640 (2009).
- Shayevitz, C., Cohen, O. S., Faraone, S. V., Glatt, S. J. A re-review of the association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 159 (5), 477-483 (2012).
- Wang, Z., et al. A review and re-evaluation of an association between the NOTCH4 locus and schizophrenia. American Journal of Medical Genetics. Part B: Neuropsychiatric Genetics. 141 (8), 902-906 (2006).
- Oriel, C., Lasko, P. Recent Developments in Using Drosophila as a Model for Human Genetic Disease. International Journal of Molecular Sciences. 19 (7), (2018).
- Hu, Y., Comjean, A., Mohr, S. E., FlyBase, C., Perrimon, N. Gene2Function: An Integrated Online Resource for Gene Function Discovery. G3. 7 (8), Bethesda. 2855-2858 (2017).