Summary
介绍了一个计算协议,CaseOLAP LIFT和一个用例,用于研究线粒体蛋白及其与心血管疾病的关联,如生物医学报告中所述。该协议可以很容易地适应研究用户选择的细胞成分和疾病。
Abstract
迅速增长和大量的生物医学报告,每份报告都包含众多实体和丰富的信息,为生物医学文本挖掘应用提供了丰富的资源。这些工具使研究人员能够整合、概念化和转化这些发现,以发现对疾病病理学和治疗方法的新见解。在该协议中,我们提出了CaseOLAP LIFT,这是一种新的计算管道,通过从文本数据集(例如,生物医学文献)中提取用户选择的信息来研究细胞成分及其疾病关联。该软件在疾病相关文档中识别亚细胞蛋白及其功能伴侣。通过软件的标签插补方法 识别 其他与疾病相关的文档。为了将由此产生的蛋白质 - 疾病关联置于上下文中并整合来自多个相关生物医学资源的信息,自动构建知识图谱以进行进一步分析。我们提出了一个用例,其中包含~3400万在线下载的文本文档,以提供使用该方法阐明线粒体蛋白在不同心血管疾病表型中的作用的示例。此外,将深度学习模型应用于生成的知识图谱,以预测以前未报告蛋白质与疾病之间的关系,从而产生了1,583个关联,预测概率>0.90,测试集上的受试者工作特征曲线下面积(AUROC)为0.91。该软件具有高度可定制和自动化的工作流程,具有广泛的原始数据可用于分析;因此,使用这种方法,可以在文本语料库中以增强的可靠性识别蛋白质 - 疾病关联。
Introduction
研究疾病相关蛋白质可以增强发病机制的科学知识,并有助于确定潜在的治疗方法。生物医学出版物的几个大型文本语料库,例如PubMed包含出版物标题,摘要和全文文件的3400万篇文章,报告了将蛋白质与疾病联系起来的新发现。然而,这些发现分散在各种来源中,必须整合以产生新的生物医学见解。存在几种生物医学资源来整合蛋白质 - 疾病关联1,2,3,4,5,6,7。然而,这些策划的资源通常是不完整的,可能不包括最新的研究结果。文本挖掘方法对于在大文本语料库中提取和合成蛋白质 - 疾病关联至关重要,这将导致对科学文献中这些生物医学概念的更全面理解。
存在多种生物医学文本挖掘方法来揭示蛋白质 - 疾病关系8,9,10,11,12,13,14,其他方法通过识别文本13,15,16,17中提到的蛋白质,疾病或其他生物医学实体,部分有助于确定这些关系,18,19.然而,其中许多工具无法获得最新的文献,除了少数定期更新的文献8,11,13,15。同样,许多工具的研究范围也有限,因为它们仅限于广泛的预定义疾病或蛋白质9,13。有几种方法也容易识别文本中的误报;其他人则通过蛋白质名称的可解释和全局黑名单9,11或更少可解释的名称实体识别技术15,20解决了这些问题。虽然大多数资源仅提供预先计算的结果,但某些工具通过 Web 应用程序或可访问的软件代码8、9、11 提供交互性。
为了解决上述限制,我们提出了以下协议,带有标签插补和全文的CaseOLAP(CaseOLAP LIFT),作为一个灵活且可定制的平台,用于研究蛋白质(例如,与细胞成分相关的蛋白质)与文本数据集中的疾病之间的关联。该平台具有基因本体(GO)术语特异性蛋白质(例如细胞器特异性蛋白质)的自动管理功能,缺失文档主题标签的插补,全文文档的分析以及分析工具和预测工具(图1,图2和表1)。CaseOLAP LIFT 通过使用用户提供的 GO 术语(例如细胞器区室)和功能相关蛋白质来管理细胞器特异性蛋白质,并使用 STRING 21、Reactome22 和 GRNdb23。疾病研究文件由其 PubMed 注释的医学主题标题 (MeSH) 标签标识。对于~15.1%的未标记文档,如果在标题中找到至少一个MeSH术语同义词或在摘要中找到至少两个,则估算标签。这使得在文本挖掘分析中可以考虑以前未分类的出版物。CaseOLAP LIFT还允许用户在指定的时间范围内(例如,2012-2022年)选择出版物的各个部分(例如,仅标题和摘要,全文或不包括方法的全文)。该软件还可以半自动地管理特定于用例的蛋白质名称黑名单,从而大大减少其他方法中存在的假阳性蛋白质疾病关联。总体而言,这些改进实现了更大的可定制性和自动化,扩大了可用于分析的数据量,并从大型生物医学文本语料库中产生了更可靠的蛋白质 - 疾病关联。
CaseOLAP LIFT结合了生物医学知识,并使用知识图谱表示各种生物医学概念的关系,该知识图谱用于预测图中隐藏的关系。最近,基于图的计算方法已应用于生物学环境,包括整合和组织生物医学概念24,25,药物再利用和开发26,27,28,以及蛋白质组学数据的临床决策29。
为了展示CaseOLAP LIFT在构建知识图谱中的实用性,我们重点介绍了一个关于线粒体蛋白与八类心血管疾病之间关联的研究用例。分析了来自~362,000份疾病相关文件的证据,以确定与疾病相关的顶级线粒体蛋白和途径。接下来,将这些蛋白质,它们的功能相关蛋白质及其文本挖掘结果合并到知识图谱中。该图被用于基于深度学习的链接预测分析,以预测迄今为止在生物医学出版物中尚未报道的蛋白质 - 疾病关联。
引言部分描述了我们协议的背景信息和目标。以下部分介绍计算协议的步骤。随后,描述了该协议的代表性结果。最后,我们简要讨论了计算协议的用例、优点、缺点和未来的应用。
Protocol
1. 运行码头工人容器
- 通过使用终端窗口并键入 docker pull caseolap/caseolap_lift:latest,下载 CaseOLAP LIFT docker 容器。
- 创建一个将存储所有程序数据和输出的目录(例如 mkdir caseolap_lift_shared_folder)。
- 使用命令docker run --name caseolap_lift -it -v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/ caseolap_lift:latest bash启动docker 容器, PATH_TO_FOLDER 作为文件夹的完整文件路径(例如,/ Users/caseolap/caseolap_lift_shared_folder)。第 2 节中的未来命令将在此终端窗口中发出。
- 在容器内启动弹性搜索。在新的终端窗口中,键入 docker exec -it --user elastic caseolap_lift bash /workspace/start_elastic_search.sh。
注意:在此协议中,CaseOLAP LIFT以交互方式运行,每个步骤按顺序执行。此分析也可以通过将其作为参数.txt文件传入来端到端执行。本研究中使用的参数.txt位于 /workspace/caseolap_lift/parameters.txt 中。若要访问每个步骤的更多详细信息,请使用 - -help 标志运行命令,或访问 GitHub 存储库 (https://github.com/CaseOLAP/caseolap_lift) 上的文档。
2. 准备疾病和蛋白质
- 导航到带有 cd /workspace/caseolap_lift 的caseolap_lift文件夹
- 确保 config/knowledge_base_links.json 中的下载链接对于每个知识库资源的最新版本都是最新且准确的。默认情况下,文件仅下载一次;要更新这些文件并重新下载,请在步骤 2.4 中使用 -R 运行预处理步骤。
- 确定用于本研究的GO术语和疾病类别。分别在 http://geneontology.org/ 和 https://meshb.nlm.nih.gov/ 处查找所有 GO 术语和 MeSH 标识符的标识符。
- 使用命令行选项执行预处理模块。该预处理步骤组装指定的疾病,列出要研究的蛋白质,并收集用于文本挖掘的蛋白质同义词。使用 -c 标志指示用户定义的研究 GO 术语,使用 -d 标志指示疾病 MeSH 树编号,并使用 -a 指定缩写。
示例命令:
Python caseolap_lift.py预处理 -a “CM ARR CHD VD IHD CCD VOO OTH” -d “C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,
C14.280.945,C14.280.459,C14.280.720“ -c ”GO:0005739“ --include-synonyms --include-ppi -k 1 -s 0.99 --include-pw -n 4 -r 0.5 --include-tfd - 在输出文件夹中检查上一步中的类别.txt、core_proteins.txt和proteins_of_interest.txt文件。确保类别.txt中的所有疾病类别都是正确的,并且在core_proteins.txt和proteins_of_interest.txt中鉴定出合理数量的蛋白质。如有必要,重复步骤2.4,并修改参数以包含更多或更少的蛋白质。
注意:研究中包含的蛋白质数量由--include-ppi,--include-pw和--include-tfd标志决定,以分别包括蛋白质 - 蛋白质相互作用,具有共享反应组途径的蛋白质和具有转录因子依赖性的蛋白质。它们的特定功能由其他标志指定,例如 -k、-s、-n 和 -r(请参阅文档)。
3. 文本挖掘
- 确保在输出文件夹中找到上一步中的 类别.txt、core_proteins.txt和 proteins_of_interest.txt 文件。使用这些文件作为文本挖掘的输入。(可选)调整与配置文件夹中的文档解析和索引相关的 配置 。有关配置和故障排除的更多详细信息,请参阅以前版本的 CaseOLAP 协议8。
- 使用 python caseolap_lift.py text_mining 执行文本挖掘模块。添加 -l 标志以插补未分类文档的主题,添加 -t 标志以下载疾病相关文档的全文。其他可选标志指定要下载的出版物的日期范围(-d),并提供筛选蛋白质名称的选项(如步骤 3.3 中所述)。解析文档的示例如图 3 所示。
示例命令: python caseolap_lift.py text_mining -d “2012-10-01,2022-10-01” -l -t
注意:大部分计算协议时间都花在步骤 3.2 上,这可能跨越 24 小时。运行时将取决于要下载的文本语料库的大小,这也取决于日期范围以及是否启用了标签插补和全文功能。 - (推荐)筛选蛋白质名称。在疾病相关出版物中确定的蛋白质名称有助于蛋白质疾病关联,但容易出现假阳性(即与其他单词的同音异义词)。要解决此问题,请在黑名单 (config/remove_these_synonyms.txt) 中枚举可能的同音异义词,以便将它们从下游步骤中排除。
- 查找要检查的名称:在 结果文件夹下,根据感兴趣的分数,在 all_proteins或core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) 下查找频率最高的蛋白质名称,并在 ranked_proteins文件夹中查找得分最高的蛋白质名称。如果有很多名称,请优先检查得分最高的名称。
- 检查名称:键入 python caseolap_lift.py text_mining -c ,后跟蛋白质名称,以显示最多 10 个包含名称的出版物。然后,对于每个名称,检查该名称是否具有蛋白质特异性。
- 重新计算分数:键入 python caseolap_lift.py text_mining -s。重复步骤 3.1、步骤 3.2 和步骤 3.3,直到步骤 3.1 中的名称正确。
4. 分析结果
- 确保文本挖掘结果位于 结果 文件夹(例如, result/all_proteins 和 result/core_proteins 目录和相关文件)中,该文件夹将用作分析步骤的输入。具体来说,在 caseolap 中报告了指示每种蛋白质-疾病关联强度的分数.csv这是文本挖掘的结果。通过指定 --analyze_core_proteins 仅包含 GO 项相关蛋白质或指定 --analyze_all_proteins 以包括所有功能相关蛋白质来指示用于分析的文本挖掘结果集。
- 确定每种疾病的顶级蛋白质和途径。显著的蛋白质-疾病关联定义为评分超过指定阈值的蛋白质-疾病关联。Z 分数转换每个疾病类别中的 CaseOLAP 评分,并将评分高于指定阈值(由 -z 标志指示)的蛋白质视为显著性。
注意:使用显着蛋白质作为反应组途径分析的输入自动识别对每种疾病有意义的生物学途径。所有这些蛋白质都报告在analysis_results文件夹中的结果result_table.csv中,并在analysis_results文件夹中自动生成相关图和通路分析结果。
示例命令: python caseolap_lift.py analyze_results -z 3.0 --analyze_core_proteins - 查看分析结果,并根据需要进行调整。蛋白质的数量以及因此对每个疾病类别有意义的富集反应组途径取决于分析中使用的z评分阈值。在 输出/analysis_results/zscore_cutoff_table.csv时生成的 z 评分表指示对每个疾病类别具有显著意义的蛋白质数量,以帮助选择尽可能高的 z 评分阈值,同时产生对每个疾病类别有意义的几种蛋白质。
5. 预测分析
- 构建知识图谱。
- 确保所需的文件位于结果文件夹中,包括通过预处理(步骤 2.4)生成的 kg 文件夹和从 all_proteins 或 core_proteins 文件夹下的文本挖掘结果生成的 caseolap.csv(步骤 3.2)。
- 设计知识图谱。根据下游任务,包括或排除完整知识图谱的组件。知识图谱由文本挖掘的蛋白质疾病评分以及与步骤 2.4 中使用的知识库资源的连接组成(图 4)。包括带有 --include_mesh 标志的 MeSH 疾病树、来自 STRING 的蛋白质-蛋白质相互作用和 --include_ppi、共享反应组途径与 --include_pw,以及来自 GRNdb/GTEx 的转录因子依赖性与 --include_tfd。
- 运行知识图谱构建模块。通过指定 --analyze_core_proteins 仅包括 GO 项相关蛋白质或 --analyze_all_proteins 包括所有功能相关蛋白质来指示用于分析的文本挖掘结果集。默认情况下,原始 CaseOLAP 评分作为蛋白质和疾病节点之间的边缘权重加载;要缩放边权重,请用 --scale_z_score 指示 --use_z_score 或非负 z 分数。
示例命令: python caseolap_lift.py prepare_knowledge_graph --scale_z_score
- 预测新的蛋白质-疾病关联。
- 确保知识图谱文件 merged_edges.tsv 和 merged_nodes.tsv 是从上一步(步骤 5.1.3)输出的。
- 运行知识图谱预测脚本,通过键入 python kg_analysis/run_kg_analysis.py 来预测迄今为止科学文献中尚未报告的蛋白质-疾病关联。这是通过GraPE30实现的,并使用DistMult31产生知识图嵌入,多层感知器使用它来预测蛋白质 - 疾病关联。在输出/kg_analysis文件夹中,将保存预测概率为 >0.90(预测.csv)和模型评估指标 (eval_results.csv) 的预测。
注意:在这项工作中,所选的模型参数(例如,嵌入方法,链接预测模型,超参数)是为代表性研究量身定制的。此代码用作其他分析的示例和起点。要探索模型参数,请参阅GraPE的文档(https://github.com/AnacletoLAB/grape)。
Representative Results
根据该方案产生代表性结果,以研究线粒体蛋白(表2)与八种心血管疾病类别(表3)之间的关联。在这些类别中,我们发现了 2012 年至 2022 年 10 月发表的 363,567 篇出版物(362,878 篇按 MeSH 元数据分类,6,923 篇按标签插补分类)。所有出版物都有标题,276,524份有摘要,51,065份有全文。总体而言,在1,687种查询的线粒体蛋白质中,有584种在出版物中被鉴定出来,而8,026种查询的功能相关蛋白质中有3,284种被鉴定出来。总共鉴定出 14 种独特的蛋白质,在所有疾病类别中均具有显著分数,z 评分阈值为 3.0(图 5)。这些蛋白质的Reactome途径分析揭示了12种对所有疾病具有重要意义的途径(图6)。所有蛋白质、通路、疾病和分数都被整合到一个知识图谱中(表4)。利用该知识图谱预测 12,688 个新的蛋白质-疾病关联,并以 0.90 的概率分数进行过滤,得出 1,583 个高置信度预测。 图7显示了两种蛋白质-疾病关联的一个突出示例,在与蛋白质功能相关的其他相关生物实体的上下文中进行了说明。模型评估指标如 表5所示。
图 1:工作流的动态视图。 此图表示此工作流中的四个主要步骤。首先,根据用户提供的GO术语(例如细胞成分)整理相关蛋白质,并根据用户提供的疾病MeSH标识符准备疾病类别。其次,蛋白质与疾病之间的关联是在文本挖掘步骤中计算的。将下载特定日期范围内的出版物并编制索引。识别疾病研究出版物(通过 MeSH标签,也可以选择通过插补标签 ), 并下载和索引其全文。蛋白质名称在出版物中查询,并用于计算蛋白质 - 疾病关联评分。接下来,在文本挖掘之后,这些分数有助于确定顶级蛋白质和途径关联。最后,构建一个知识图谱,其中包含这些蛋白质,疾病及其在生物医学知识库中的关系。基于构建的知识图谱预测新的蛋白质-疾病关联。这些步骤使用来自生物医学知识库和PubMed的最新可用数据。 请点击此处查看此图的大图。
图 2:工作流的技术架构。 此图说明了此工作流的技术详细信息。用户提供疾病类别和GO术语的MeSH树编号。从PubMed下载文本文档,根据提供的MeSH标签识别与疾病相关的文档,没有主题指示MeSH标签的文档接收插补类别标签。获得与提供的GO项相关的蛋白质。该蛋白质集被扩展为包括通过蛋白质 - 蛋白质相互作用,共享生物学途径和转录因子依赖 性在 功能上相关的蛋白质。这些蛋白质在疾病相关文件中被查询,并由CaseOLAP评分。 请点击此处查看此图的大图。
图 3:已处理文档的示例。 此处提供了一个已分析的索引文本文档的示例。按顺序,相关字段指示索引名称(_index,_type),PubMed ID(_id,pmid),文档子部分(标题,摘要,full_text,引言,方法,结果,讨论)和其他元数据(年份,MeSH,位置,期刊)。仅出于显示目的,文档子节用省略号截断。MeSH 字段包含文档主题,有时可能由我们的标签插补步骤提供。 请点击此处查看此图的大图。
图 4:知识图谱图谱图和生物医学资源。此图描述了知识图谱架构。每个节点和边分别表示一个节点或边类型。心血管疾病(CVD)和蛋白质之间的边缘由CaseOLAP评分加权。蛋白质-蛋白质相互作用 (PPI) 边缘由 STRING 置信度分数加权。GRNdb/GTEx衍生的转录因子依赖性(TFD)边缘、MeSH衍生的疾病树边缘和反应组衍生的途径边缘是未加权的。请点击此处查看此图的大图。
图5:顶级蛋白质疾病关联。 该图显示了对每种疾病类别有意义的线粒体蛋白。将Z分数转换应用于每个类别中的CaseOLAP分数,以使用阈值3.0鉴定重要蛋白质。(上)对每种疾病有意义的线粒体蛋白数量:这些小提琴图描绘了每种疾病类别中蛋白质的 z 评分分布。对每个疾病类别有意义的蛋白质总数显示在每个小提琴图上方。共有14种独特的蛋白质在所有疾病中被确定为显着,一些蛋白质对多种疾病具有显着意义。(下)得分最高的蛋白质:热图显示了在所有疾病中获得最高平均 z 分数的前 10 种蛋白质。空白值表示蛋白质和疾病之间没有获得分数。 请点击此处查看此图的大图。
图 6:主要途径-疾病关联。 该图说明了通过反应组途径分析 确定 的与所研究疾病类别相关的顶级生物学途径。所有途径分析均用 p < 0.05过滤。热图值表示途径内所有蛋白质的平均z得分。(上)所有疾病中的保守途径:总体而言,确定了与所有疾病类别相关的14种蛋白质,揭示了所有疾病类别中的12种保守途径。基于通路分层结构构建树状图,将具有相似生物学功能的通路连接起来。树状图高度表示通路层次结构内的相对深度;宽泛的生物学功能具有更长的肢体,而更具体的通路具有较短的肢体。(下)与疾病类别不同的通路:使用在每种疾病中达到显着z评分的蛋白质进行通路分析。与每种疾病相关的 p值最低的前三个途径用星号显示和表示。这些途径可能在多种疾病的前三名之内。 请点击此处查看此图的大图。
图 7:深度学习在知识图谱补全中的应用。此图显示了将深度学习应用于特定疾病知识图的示例。预测蛋白质和疾病之间的隐藏关系,这些关系以蓝色表示。将显示两个预测的计算概率,值范围为 0.0 到 1.0,1.0 表示强预测。包括几种具有已知相互作用的蛋白质,代表蛋白质 - 蛋白质相互作用,转录因子依赖性和共享的生物学途径。对于可视化,显示了与突出显示的示例相关的几个节点的子图。关键:IHD = 缺血性心脏病;R-HSA-1430728 =代谢;O14949 = 细胞色素 b-c1 复合物亚基 8;P17568 = NADH脱氢酶(泛醌)1β亚复合物亚基7;Q9NYF8 Bcl-2 相关转录因子 1,评分:7.24 x 10−7;P49821 = NADH脱氢酶(泛醌)黄素蛋白1,线粒体,评分:1.06 x 10−5;P31930 = 细胞色素 b-c1 复合体亚基 1,线粒体,评分:4.98 x 10−5;P99999 = 细胞色素 c,得分:0.399。请点击此处查看此图的大图。
表 1:工作流和速率限制步骤。 此表显示了工作流每个阶段的计算时间的粗略估计值。包含管道组件的选项将更改完成分析所需的总运行时间。总时间估计因可用的计算资源而异,包括硬件规格和软件设置。粗略估计,该协议需要 36 小时的活动运行时才能在我们的计算服务器上执行,具有六个内核、32 Gb RAM 和 2 Tb 存储,但在其他设备上这可能更快或更慢。 请按此下载此表格。
表2:细胞成分蛋白的自动组装。 该表显示了与给定细胞成分(即GO项)相关的蛋白质数量,通过蛋白质 - 蛋白质相互作用(PPI),共享途径(PW)和转录因子依赖性(TFD) 与 它们功能相关的蛋白质数量。总蛋白质的数量是所有先前类别的蛋白质数量的总和。所有功能相关的蛋白质都是使用CaseOLAP LIFT的默认参数获得的。 请按此下载此表格。
表3:MeSH标签插补统计。 此表显示了疾病类别、用作该类别中包含的所有疾病的父项的 MeSH 树编号、2012-2022 年每个类别中发现的 PubMed 文章数量,以及基于标签插补步骤包含的其他文章的数量。 请按此下载此表格。
表4:知识图谱构建统计。 下表描述了构造知识图谱大小的统计信息,包括各种节点和边缘类型。CaseOLAP 评分表示蛋白质与心血管疾病 (CVD) 类别之间的关系。 请按此下载此表格。
表 5:知识图谱预测统计和验证。 该表报告了新型/隐藏蛋白-疾病关联的知识图谱链接预测的评估指标。知识图谱边缘被划分为70/30的训练数据集和测试数据集,并且两个数据集中都保留了边缘的图连通性。准确度指示正确分类的预测比例,而平衡精度校正类不平衡。特异性表示正确分类的负面预测的比例。精度表示正确积极预测在所有积极预测中的比例,而召回率表示所有正边缘( 即通过 文本挖掘识别的蛋白质疾病关联)中正确积极预测的比例。F1 分数是精度和召回率的调和平均值。接收器工作特征曲线下面积 (AUROC) 描述了模型区分正预测和负预测的能力,1.0 表示完美分类器。精度-召回率曲线下面积 (AUPRC) 衡量在不同概率阈值下精度和召回率之间的权衡,值越高表示性能越好。 请按此下载此表格。
Discussion
CaseOLAP LIFT使研究人员能够研究功能蛋白(例如,与细胞成分,生物过程或分子功能相关的蛋白质)与生物学类别(例如,疾病)之间的关联。所描述的协议应按指定的顺序执行,协议部分 2 和协议部分 3 是最关键的步骤,因为协议部分 4 和协议部分 5 取决于它们的结果。作为协议第 1 部分的替代方法,可以从 GitHub 存储库 (https://github.com/CaseOLAP/caseolap_lift) 克隆和访问 CaseOLAP LIFT 代码。应该注意的是,尽管在软件开发过程中进行了测试,但仍可能发生错误。如果是这样,则应重复失败的步骤。如果问题仍然存在,建议重复协议第 1 节,以确保使用最新版本的 docker 容器。通过在 GitHub 存储库上创建问题以获得其他支持,可以获得进一步的帮助。
该方法通过使研究人员能够识别感兴趣的实体并揭示它们之间的潜在关联来支持假设生成,这些关联在现有的生物医学资源中可能不容易获得。由此产生的蛋白质 - 疾病关联使研究人员能够通过分数的可解释指标获得新的见解:流行度分数表示与疾病相关的研究最多的蛋白质,独特性分数表示蛋白质最独特的疾病,组合CaseOLAP评分是两者的组合。为了防止误报识别(例如,由于同音异义词),一些文本挖掘工具利用术语黑名单来避免 9,11。同样,CaseOLAP LIFT也使用黑名单,但允许用户根据他们的用例定制黑名单。例如,在研究冠状动脉疾病(CAD)时,“CAD”不应被视为蛋白质“半胱天冬酶激活脱氧核糖核酸酶”的名称。然而,在研究其他主题时,“CAD”通常可能指的是蛋白质。
CaseOLAP LIFT适应可用于文本挖掘的数据量。日期范围功能减轻了计算负担,并为假设生成创造了灵活性(例如,研究关于蛋白质-疾病关联的科学知识如何随时间变化)。同时,标签插补和全文组件增强了可用于文本挖掘的数据范围。默认情况下,这两个组件都处于禁用状态,以降低计算成本,但用户可以决定包含任何一个组件。标签插补是保守的,它正确地对大多数出版物进行了分类(87%的准确率),但错过了其他类别的标签(2%的召回率)。此方法目前依赖于与疾病关键字匹配的基于规则的启发式方法,并且计划通过使用文档主题建模技术来提高性能。由于许多未分类的报告往往是最近的出版物,因此调查最近日期范围(例如,过去 3 年内的所有出版物)的研究最好禁用标签插补。全文组件增加了运行时和存储要求。值得注意的是,只有少数文件有全文可用(在我们的研究中~14%的文件)。假设出版物方法部分中提到的蛋白质名称不太可能与疾病主题相关,建议查询不包括方法部分的全文文章。
由此产生的蛋白质-疾病关联评分对于传统分析非常有用,例如聚类、降维或富集分析(例如,GO、途径),本软件包中包含一些实现。为了将这些分数置于现有生物医学知识中的上下文中,会自动构建知识图谱,并可以使用图形可视化工具(例如,Neo4j32,Cytoscape 33)进行探索。知识图谱还可用于预测分析(例如,未报告的蛋白质-疾病关系的链接预测、蛋白质网络的社区检测、奖品路径行走方法)。
我们已经检查了预测的蛋白质-疾病关联的模型评估指标(表5)。该模型为每个蛋白质-疾病关联分配一个介于 0.0 和 1.0 之间的概率分数,分数接近 1.0 表示预测的置信度更高。对模型性能的内部评估基于各种指标,包括AUROC,准确性,平衡准确性,特异性和召回率,表明他的工作具有出色的整体性能。然而,评估也强调模型的精度(0.15)得分相当差,导致AUPRC和F1得分较低。未来改进该指标的研究将有助于提高模型的整体性能。我们设想这可以通过实现更复杂的知识图嵌入和图预测模型来实现。根据模型的精度 0.15,研究人员应预期大约 15% 的阳性识别;特别是,在该模型预测的所有12,688种蛋白质 - 疾病关联中,大约15%是真正的阳性关联。这可以通过仅考虑具有高概率评分的蛋白质-疾病关联来缓解(例如,>0.90);在我们的用例中,概率阈值为 0.90 的筛选导致 1,583 个关联的高置信度预测。研究人员可能会发现手动检查这些预测以确保高有效性也很有帮助(参见 图 7 作为示例)。对我们预测的外部评估确定,在我们的文本挖掘研究中,来自广泛策划数据库DisGeNet19的310个蛋白质 - 疾病关联中确定了103个,并且通过我们的知识图谱分析预测了另外88个关联,概率得分为>0.90。
总体而言,CaseOLAP LIFT在设计功能蛋白组与大文本语料库中多种疾病之间关联的自定义分析方面具有更高的灵活性和可用性。该软件包在新的用户友好的命令行界面中进行了简化,并作为 docker 容器发布,从而减少了与配置编程环境和软件依赖项相关的问题。用于研究心血管疾病中线粒体蛋白的CaseOLAP LIFT管道可以很容易地适应;例如,该技术的未来应用可能涉及研究与任何GO术语相关的任何蛋白质与任何生物医学类别之间的关联。此外,该文本挖掘平台确定的蛋白质 - 疾病关联排名对于准备使用高级自然语言技术的数据集非常重要。由此产生的知识图谱使研究人员能够将这些发现转化为生物学信息知识,并为后续基于图的分析奠定基础。
Disclosures
作者没有什么可透露的。
Acknowledgments
这项工作得到了美国国立卫生研究院(NIH)R35 HL135772到P.P.,NIH T32 HL13945到A.R.P.和D.S.,NIH T32 EB016640到A.R.P.,国家科学基金会研究实习(NRT)1829071到A.R.P.和D.S.,NIH R01 HL146739为I.A.,J.R.,A.V.,K.B.和TC Laubisch捐赠给加州大学洛杉矶分校的P.P.。
Materials
Name | Company | Catalog Number | Comments |
Software - Docker | Docker | N/A | docker.com |
References
- The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
- Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
- Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
- Rehm, H. L., et al. ClinGen - The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
- Caulfield, M., et al. The National Genomics Research and Healthcare Knowledgebase. , (2019).
- Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
- Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
- Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
- Yu, K. -H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
- Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
- Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
- Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
- Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
- Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
- Wei, C. -H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
- Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
- Wei, C. -H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
- Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
- Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
- Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
- Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
- Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
- Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
- Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
- Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
- Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
- Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
- Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
- Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
- Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
- Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
- Neo4j Graph Data Platform. , Available from: https://neo4j.com/ (2022).
- Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).