在这里,我们提出了一个协议,以有效地访问和分析许多人类和模型生物体数据库。该协议演示了使用 MARRVEL 分析从下一代测序工作中发现的候选致病变异。
通过全外体/基因组测序,人类遗传学家识别与疾病表型分离的罕见变异。要评估特定变异是否致病性,必须查询多个数据库,以确定相关基因是否与遗传疾病有关,特定变异之前是否报告过,以及模型生物体中有哪些功能数据数据库,可能提供有关基因在人类中功能的线索。MARRVEL(稀有变异传播模型生物群聚合资源)是一站式数据收集工具,用于7种模型生物体中的人类基因和变异及其正交基因,包括小鼠、大鼠、斑马鱼、果蝇、线虫、裂变酵母和萌芽酵母。在本协议中,我们概述了 MARRVEL 可用于什么用途,并讨论了如何使用不同的数据集来评估已知致病基因中具有未知意义的变体 (VUS) 或不确定意义基因 (GUS) 中的变体是否可能是致病。该协议将指导用户同时搜索多个人类数据库,从具有或没有感兴趣的变体的人类基因开始。我们还讨论如何利用来自OMIM、EXAC/gnomAD、克林瓦尔、Geno2MP、DGV和DECHIPHER的数据。此外,我们说明如何解释与每个人类基因相关的模型生物体中正交候选基因、表达模式和GO术语的列表。此外,我们讨论了所提供的价值蛋白质结构域注释,并解释了如何使用多物种蛋白质对齐功能来评估感兴趣的变体是否影响进化保护的域或氨基酸。最后,我们将讨论此网站的三个不同的用例。MARRVEL 是一个易于访问的开放访问网站,专为临床和基础研究人员设计,是功能研究设计实验的起点。
下一代测序技术在研究和临床基因实验室中的应用正在扩大。全外显子 (WES) 和全基因组测序 (WGS) 分析揭示了已知致病基因中许多未知意义 (VUS) 的罕见变异,以及尚未与孟德尔病相关的基因变异(GUS:不确定基因)显著性)。在临床序列报告中列出基因和变异列表,医学遗传学家必须手动访问多个在线资源,以获取更多信息,以评估哪个变异可能负责感兴趣的患者中的特定表型.这个过程非常耗时,其有效性在很大程度上取决于个人的专业知识。虽然已经发表了几篇指导性文件,但WES和WGS的解释需要人工整理,因为尚有一个标准化的变体分析方法。对于VUS的解释,关于先前报告的基因型-表型关系、继承方式和一般人群中等位基因频率的知识变得有价值。此外,了解该变异是否影响关键蛋白质领域,或进化保存的残留物可能会增加或降低致病性的可能性。为了收集所有这些信息,人们通常需要浏览10-20个人体和模型生物体数据库,因为这些信息分散在万维网上。
同样,研究特定基因和途径的模型生物科学家往往有兴趣将他们的发现与人类疾病机制联系起来,并希望利用人类基因组学领域产生的知识。然而,由于人类基因组数据集的迅速扩展和演变,确定提供有用信息的数据库一直面临挑战。此外,由于大多数模型生物体数据库是为每天使用特定生物体的研究人员设计的,例如,小鼠研究人员很难在果蝇数据库中搜索具体信息,反之亦然。与医学遗传学家进行的变异解释搜索类似,识别有用的人类和其他模型生物体信息非常耗时,并且严重依赖模型生物体研究人员的背景。MARRVEL(用于稀有变异Expof的模型生物体聚合资源)4是一种为两组用户设计以简化其工作流程的工具。
MARRVEL(http://marrvel.org)被设计为一个集中的搜索引擎,以高效和一致的方式为临床医生和研究人员系统地收集数据。有了来自20个或更多公开数据库的信息,这个程序允许用户快速收集信息,并访问大量的人类和模型生物体数据库,而无需重复搜索。搜索结果页还包含指向原始信息来源的超链接,允许个人访问原始数据并收集来源提供的其他信息。
与许多需要以 VCF 或 BAM 文件形式输入大量排序数据以及安装通常专有/商业软件的变体优先级工具不同,MARRVEL 可在任何 Web 浏览器上运行。只要一台连接到互联网,就可以不带成本地使用,并与便携式设备(如智能手机、平板电脑)兼容。我们选择这种格式,因为许多临床医生和研究人员通常需要一次搜索一个或多个基因和变异。请注意,我们正在为 MARRVEL 开发批处理下载和 API(应用程序编程接口)功能,以便在必要时允许用户通过自定义查询工具一次整理数百个基因和变体。
由于应用程序范围广泛,在此协议中,我们将介绍一种涵盖广泛的方法,用于浏览 MARRVEL 显示的不同数据集。代表结果部分将介绍针对特定用户需求定制的更有针对性的示例。需要注意的是,MARRVEL的输出仍然需要人类遗传学或模型生物体获得一定的背景知识,才能提取有价值的信息。我们将读者参考表,该表列出了描述由 MARRVEL 策划的每个原始数据库的功能的主要论文(表 1)。以下协议分为三个部分:(1) 如何开始搜索,(2) 如何解释 MARRVEL 人类遗传学输出,(3) 如何在 MARRVEL 中使用模型生物体数据。在”代表性结果”部分中,介绍了重点更突出、更具体的方法。MARRVEL 正在积极更新,因此请参阅当前网站的常见问题页面,了解有关数据源的详细信息。我们强烈建议 MARRVEL 的用户注册,以便通过 MARRVEL 主页底部的电子邮件提交表单接收更新通知。
该协议中的关键步骤包括初始输入(步骤 1.1-1.3)和输出的后续解释。搜索结果为负的最常见原因是基因和/或变异的多种描述方式。虽然 MARRVEL 会按计划更新,但这些更新可能会导致 MARRVEL 链接到的不同数据库之间的断开连接。因此,故障排除的第一步是始终检查基因或变体的替代名称是否会导致成功的搜索结果。如果仍无法解决,请使用http://marrvel.org/message中的反馈表单向开发团队发送消息。
<p clas…The authors have nothing to disclose.
我们感谢拉米·奥兰博士、金世英博士、胡延辉(克莱尔)、英惠万、纳文·马诺哈兰、萨西达尔·帕苏普莱蒂、阿拉姆·孔让、毛东学、迈克尔·旺勒、肖-图安·曹、斯蒂芬妮·莫尔和诺伯特·佩里蒙博士,感谢他们对发展的支持。维护马尔维尔。我们感谢萨曼莎·德和J·迈克尔·哈尼什对这份手稿的投入。
MARRVEL 的初步开发部分得到了未诊断疾病网络模型生物筛选中心通过 NIH 共同基金 (U54NS093793) 和 NIH 研究基础设施计划办公室 (ORIP) (R24OD022005) 的支持。JW由NIH尤尼斯·肯尼迪·施莱佛国家儿童健康与人类发展研究所(F30HD094503)和罗伯特和贾尼斯·麦克奈尔基金会麦克奈尔博士/博士生学者项目在BCM资助。HJB还得到NIH国家普通医学研究所(R01GM067858)的进一步支持,是霍华德·休斯医学研究所的研究员。ZL由NIH国家普通医学研究所(R01GM120033)、国家老龄研究所(R01AG057339)和赫芬顿基金会支持。SY获得了NIH国家耳聋和其他通信障碍研究所(R01DC014932)、西蒙斯基金会(SFARI奖:368479)、阿尔茨海默氏症协会(新调查员研究补助金:15-364099)、纳曼家族)的额外支持。基础研究基金和卡罗琳·威斯定律分子医学研究基金。
Human Genetics | ClinVar | PMID: 29165669 | https://www.ncbi.nlm.nih.gov/clinvar/ |
Human Genetics | DECIPHER | PMID: 19344873 | https://decipher.sanger.ac.uk/ |
Human Genetics | DGV | PMID: 24174537 | http://dgv.tcag.ca/dgv/app/home |
Orthology Prediction | DIOPT | PMID: 21880147 | https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl |
Human Gene/Transcript Nomenclature | Ensembl | PMID: 29155950 | https://useast.ensembl.org/ |
Human Genetics | ExAC | PMID: 27535533 | http://exac.broadinstitute.org/ |
Primary Model Organism Databases | FlyBase (Drosophila) | PMID:26467478 | http://flybase.org |
Model Organism Database Integration Tools | Gene2Function | PMID: 28663344 | http://www.gene2function.org/search/ |
Human Genetics | Geno2MP | N/A | http://geno2mp.gs.washington.edu/Geno2MP/ |
Human Genetics | gnomAD | PMID: 27535533 | http://gnomad.broadinstitute.org/ |
Gene Ontology | GO Central | PMID: 10802651, 25428369 | http://www.geneontology.org/ |
Human Gene/Protein Expression | GTEx | PMID: 29019975, 23715323 | https://gtexportal.org/home/ |
Human Gene Nomenclature | HGNC | PMID: 27799471 | https://www.genenames.org/ |
Primary Model Organism Databases | IMPC (mouse) | PMID: 27626380 | http://www.mousephenotype.org/ |
Primary Model Organism Databases | MGI (mouse) | PMID:25348401 | http://www.informatics.jax.org/ |
Model Organism Database Integration Tools | Monarch Initiative | PMID: 27899636 | https://monarchinitiative.org/ |
Human Variant Nomenclature | Mutalyzer | PMID: 18000842 | https://mutalyzer.nl/ |
Human Genetics | OMIM | PMID: 28654725 | https://omim.org/ |
Primary Model Organism Databases | PomBase (fission yeast) | PMID:22039153 | https://www.pombase.org/ |
Literature | PubMed | N/A | https://www.ncbi.nlm.nih.gov/pubmed/ |
Primary Model Organism Databases | RGD (rat) | PMID:25355511 | https://rgd.mcw.edu/ |
Primary Model Organism Databases | SGD (budding yeast) | PMID: 22110037 | https://www.yeastgenome.org/ |
Human Gene/Protein Expression | The Human Protein Atlas | PMID: 21752111 | https://www.proteinatlas.org/ |
Primary Model Organism Databases | WormBase (C. elegans) | PMID:26578572 | http://wormbase.org |
Primary Model Organism Databases | ZFIN (zebrafish) | PMID:26097180 | https://zfin.org/ |