Method Article

基于规则的语言分析和计算机视觉的多模态知识图谱

DOI:

10.3791/69803

April 3rd, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG 是一个多模态框架,通过对齐文本和视觉实体,构建印地语视觉文档中的知识图谱。它结合了基于规则的语言分析和计算机视觉技术,在资源匮乏的印度语环境中生成主语-关系-宾语三元组。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

视觉语义对齐印地语多模态知识图谱(VISHAM-KG)是一个框架,旨在通过系统地对齐视觉文本实体,从印地语视觉文档构建一致的多模态知识图谱(KG)。本研究旨在将基于规则的语言分析与基于计算机视觉的对象检测相结合,支持低资源印度语中的结构化语义表示和扎实推理。所提出的算法首先准备自然语言处理(NLP)印地语视觉文档,随后进行光学字符识别(OCR)进行天城文提取和语言预处理,包括分词化、词形化、词性标记和依赖解析等多种过程。同时,通过物体检测从图像中提取视觉实体,并通过置信阈值进行过滤。文本和视觉实体通过多语言变换器模型XLM-R和CLIP-ViT嵌入到共享语义空间中,并使用基于余弦相似度的阈值进行对齐。这些对齐实体与基于规则的依赖关系结合,生成多模三元态。该协议生成一个结构化的多模态知识图谱,编码为主体-关系-客体三元组,并基于印度知识库有明确的视觉基础。这些输出将支持印地语视觉文档的跨模态查询、实体对齐和知识图推理,并为低资源语言环境中的多模态知识构建提供可复制的框架。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

知识图谱(KGs)是一种结构化的语义图表示,其中实体被建模为节点,关系被建模为边。它能够在问答、推荐系统和信息提取等多种应用中实现高效的知识检索和情境推理。在过去十年中,基格建筑方法得到了显著发展。然而,大多数现有方法主要针对资源丰富的语言设计,这些语言主要依赖大规模文本语料库2。因此,低资源语言仍然代表性不足,限制了基于幼稚语言的技术在文化和语言多样性环境中的适用性 3.与此同时,越来越多的现实世界文献——尤其是在教育、文化和遗产领域——拥有丰富的视觉信息,而这些信息是文本中心图构建方法无法充分捕捉的。

多模态知识图谱(MMKG)通过整合非文本模态(如图像、音频或视频)来扩展传统知识图,从而实现基于基础的语义表示5.以往的MMKG框架,包括IMGpedia、Richpedia和ImageGraph,展示了将视觉信息与文本实体关联以提升语义查询和推理的价值,6,7,8。尽管取得了这些进展,现有方法大多以英语为中心,依赖策划的元数据或静态数据集,并且在直接从....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

该协议无需伦理审批,因为它仅使用公开可用的非人类、非敏感的视觉和文本数据。 表2 提供了所有工具和技术及其依赖关系。所有用于重现多模态知识图谱构建流程所需的源代码、配置文件和脚本均可在公共的 GitHub 仓库中获得(preeti017phdit22-wq/VISHAM_KG.)。该仓库包含安装说明和依赖规范,以促进可重复性。

模块模型 / 工具版本框架目的
光学字符识别EasyOCRv1.7.1PyTorch印地语文本提取
POS + 依赖解析诗节(嗨)v1.6.1PyTorch语言解....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

所提的VISHAM-KG通过相似度评分计算和链路预测任务进行评估,这些任务在知识表示基准数据集中常用。

实验装置

利用两个既定任务评估构建的多模态知识图:(i)跨模态相似性评估和(ii)知识图链接预测。所有评估都应仅针对协议端点生成的最终图输出进行。在评估前固定所有随机种子,并在实验间应用相同的预处理(见图8)。

图8
图8:由印地语小故事构建的文本和多模态知识图示。 第一张图展示了仅文本语义网络,第二张图是 VISHAM-KG 的.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG 框架的性能主要基于三个关键组成部分:天城文的光学字符识别(步骤 1.2)、基于基于信心的 Clip-ViT 视觉对象检测(步骤 1.3)以及基于嵌入的跨模态对齐(步骤 1.4)。OCR的准确性直接影响下游的语言解析和实体提取。此阶段引入的误差会传播到关系识别,降低比对精度。通过印地语特有的规范化、词汇化和基于依存的规则强制来缓解这一影响,这些方法在三元组生成10前稳定了实体表示。所有比较结果见 下表10

相位文本KG多模态KG改进

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者声明,关于本论文的发表不存在利益冲突。

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
BiLSTM-CRF与印度NER模型定制训练PyTorch命名实体识别
CLIP-ViT-B/322022-09OpenAI可视化嵌入生成
中央处理器英特尔i9英特尔通用计算
EasyOCRv1.7.1Jaided AI从图像中提取印地语文本
GPUNVIDIA RTX 3090NVIDIA模型推理加速
印地语儿童故事10层策划数据集评估语料库
Neo4jv5.13Neo4j 公司知识图谱存储
数字派v1.24NumPy 社区数值计算
熊猫2.0版本熊猫社区数据处理
蟒蛇v3.10Python 软件基础流水线实现
PyTorch2.0版本元人工智能深度学习框架
Stanza(印地语模式)v1.6.1斯坦福国家语言物理学POS 标记与依赖解析
XLM-R(基础版)2023-05拥抱脸文本嵌入生成
YOLOv8v8.0.208超溶菌视觉对象检测

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
  2. Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Multimodal Knowledge GraphsRule Based Linguistic AnalysisComputer VisionVisual Entity ExtractionHindi Visual DocumentsOptical Character RecognitionDependency ParsingEntity AlignmentMultilingual TransformerKnowledge Graph Reasoning

Related Articles