结合变换器（BERT）和图神经网络（GNN）的双向编码表示，用于数字企业知识检索的AI工作流程

Yang Qianqi; Aini Binti Aman; Hafizah Omar Zaki; Roziana Baharin

doi:10.3791/70045

Method Article

结合变换器（BERT）和图神经网络（GNN）的双向编码表示，用于数字企业知识检索的AI工作流程

DOI:

10.3791/70045

⸱

April 28th, 2026

Yang Qianqi¹ , Aini Binti Aman¹ , Hafizah Omar Zaki¹ , Roziana Baharin¹

¹Faculty of Economics and Management, The National University of Malaysia

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

该协议呈现了一个可重复的人工智能驱动工作流，细致优化BERT以实现实体和关系提取，利用图神经网络进行本体对齐，从非结构化数据构建企业知识图谱，并系统评估语义检索性能和决策支持效率。

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

大量非结构化组织数据会使企业知识管理（KM）系统难以提取正确且与上下文相关的信息，从而导致知识共享效率低下和决策延迟。本研究提出了一个统一的人工智能驱动框架来克服这一局限。它结合了用于本体比对和语义推理的图神经网络（GNN）与精炼的Transformer双向编码器表示（BERT）进行领域特定实体和关系提取。系统化的数据收集、企业文本语料库的预处理、微调BERT以识别实体和关系、将提取的三元组转换为结构化知识图谱，以及基于GNN的本体对齐以确保异构知识源间语义一致，构成了该方法论的流程。为了评估系统在现实世界企业场景中的效能，该框架还集成了面向任务的评估指标，如检索精度、本体对齐正确性和决策延迟。与基线方法相比，跨两个行业应用的实验验证显示决策延迟降低了35%，知识检索精度提升了21%。

此外，用户反馈显示，KM界面通过语义搜索和上下文标签功能提升了用户满意度。所建议的架构通过系统地将基于图的推理和对齐与基于深度学习的信息提取相结合，促进了从非结构化企业数据中可重复构建的知识图谱。研究结果表明，当有组织的知识表述与组织流程保持一致时，战略和运营知识管理的成果都会得到改善。综合来看，建议的方法提高了检索准确性，加快决策工作流程的响应时间，并为企业级知识管理系统提供了可行且可扩展的选择。

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

由于数据库分散、组织平台多样以及知识分散在非结构化文档中的碎片化，有效的知识管理在数字化转型项目中可能难以实施。尽管早期研究从组织和行业视角探讨人工智能的采用与数字化转型，但尚未被大量研究提出一个可重复且技术上可实施的框架，能够系统地提取、结构化、对齐并操作企业知识目前的方法主要关注管理或战略后果，但它们缺乏足够的架构细节以实现大规模部署。

传统的管理信息系统（MIS）和企业资源规划（ERP）系统主要处理结构化数据并促进事务性报告，但它们无法处理非结构化文本或执行上下文感知语义推理。另一方面，复杂文本语料库^4,5中的上下文实体和RE则通过像BERT这样的基于变换器的模型实现。同样，GNN已被证明在多个^{不同领域中}具备高度的关系推理能力、图表示学习和本体对齐能力 ^6,7,8。尽管有这些进展，当前的研究通常分别使用这些模型，而非将....

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

伦理声明

本研究在数据收集前由马来西亚国立大学（UKM）机构审查委员会（IRB）审核并批准（批准编号：UKM/FEP/2025/AI-047;批准日期：2025年3月12日）。批准的方案涵盖了结构化调查和涉及人体参与者的半结构化访谈。所有参与者均被告知研究目的、参与的自愿性质以及随时退出无后果的权利，并在纳入前获得书面知情同意。参与者的匿名性和保密性被严格维护，分析或发表中未包含任何个人身份信息，所有数据均安全存储，仅用于学术研究，符合机构伦理标准和相关国际人体受试者研究指南。

拟议中的BERT–GNN KM框架的整体架构

最初，使用微调的变换器编码器处理非结构化文本，包括内部文档、客户互动和社交媒体内容。基于BERT–GNN的KM工作流程的整体系统架构如图1所示。本研究所用企业数据以数字文档形式收集，包括结构化调查文件、访谈记录、企业内部报告以及公开的案例研究文件。所有文件被整合成统一语料库进行分析。文本内容从这些来源提取并清理，以去除无关元数据、重复条目和格式伪影。清理后的语料库随后被分割成句子并分词，以便为后续自然语言处理做准备，比如使用....

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

数据预处理与BERT微调

该设备集成了优化最佳的BERT版本，用于非结构化理解提取，以及图神经网络（GNN），用于理解图框架内的本体对齐和推理。实验方案重点比较BERT在NER和RE任务中的整体表现，而GNN因素则在构建数据图中分析链路预测和节点类。

NER任务和RE任务的F1分数见表3。为避免数据泄露，所有数据仅与未完成测试分段的表现相关，该分段与训练和验证数据通过70：15：15的划分严格分开。在保留的测试集中，建议的BERT–GNN架构在RE和NER任务中表现最佳。基于图的本体对齐不仅仅能带来上下文变换器建模的可量化收益，这一点从统计学上显著（p < 0.01）相较BERT基线的提升可见一斑。训练稳定性通过五次独立运行中的低标准差值表现，强的泛化表现则通过狭窄置信区间表示。

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究提出了一个统一的企业知识管理框架，将使用 BERT 进行上下文语义提取、基于图的关系推理和通过 GNN 进行本体对齐整合。为了实现实体链接、跨文档推理和跨不同业务数据源的连贯知识表示，主要贡献是在单一流水线内将深度上下文语言建模与结构化、本体感知推理集成为基础 ^3,4。通过解决当前方法的不足，如存在可扩展性和模糊性的规则系统、输出平坦的仅变换器模型，以及依赖预结构化数据的纯图技术，所建议的框架提升了科学水平。该方法通过融合基于BERT的提取与GNN推理^5,6，实现了一致的本体对齐、有组织的跨源推断以及可扩展的语义检索。通过超越单独的提取或推理模块，这种集成有助于创建更复杂、具备推理能力的企业知识系统。

该研究存在若干限制。由于该框架依赖于领域特定的BERT微调，适配不足可能会降.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者之间没有利益冲突

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者衷心感谢马来西亚国立大学经济与管理学院（马来西亚邦吉）及商学院的支持。

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
BERT-Base（未包覆）预训练模型	谷歌人工智能	无	基于Transformer的预训练语言模型（bert-base-uncased变体）
深度图库（DGL）	AWS 实验室	RRID：SCR_017054	2.1版用于图神经网络建模
Matplotlib 可视化库	PyData 社区	RRID：SCR_008624	用于性能图和可视化分析
NetworkX 图库	PyPI 社区	RRID：SCR_005317	用于图构建和分析的版本3.2
NumPy 数值计算库	PyData 社区	RRID：SCR_008633	用于数值运算和数组处理
NVIDIA GPU（特斯拉 T4 / RTX 3080）	英伟达公司	RRID：SCR_016409	支持CUDA的硬件加速器用于模型训练
Pandas数据分析库	PyData 社区	RRID：SCR_018214	用于结构化数据操作
Python 编程语言	Python 软件基础	RRID：SCR_008394	用于模型开发和数据处理的版本3.10
PyTorch 深度学习框架	元人工智能	RRID：SCR_018536	用于神经网络实现的版本2.0
Scikit-learn机器学习库	Scikit-learn 开发者	RRID：SCR_002577	1.5版用于预处理和评估指标
Transformers NLP 库	拥抱脸	RRID：SCR_020989	用于预训练变压器模型的版本4.40
Ubuntu Linux 操作系统	佳能有限公司	RRID：SCR_018317	20.04 LTS 运行环境

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

结合变换器（BERT）和图神经网络（GNN）的双向编码表示，用于数字企业知识检索的AI工作流程

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles