基于规则的语言分析和计算机视觉的多模态知识图谱

Preeti Vats; Nonita Sharma; Deepak Kumar Sharma; Alongbar Wary

doi:10.3791/69803

Method Article

基于规则的语言分析和计算机视觉的多模态知识图谱

DOI:

10.3791/69803

⸱

April 3rd, 2026

Preeti Vats¹ , Nonita Sharma¹ , Deepak Kumar Sharma¹ , Alongbar Wary¹

¹Indira Gandhi Delhi Technical University for Women

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG 是一个多模态框架，通过对齐文本和视觉实体，构建印地语视觉文档中的知识图谱。它结合了基于规则的语言分析和计算机视觉技术，在资源匮乏的印度语环境中生成主语-关系-宾语三元组。

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

视觉语义对齐印地语多模态知识图谱（VISHAM-KG）是一个框架，旨在通过系统地对齐视觉文本实体，从印地语视觉文档构建一致的多模态知识图谱（KG）。本研究旨在将基于规则的语言分析与基于计算机视觉的对象检测相结合，支持低资源印度语中的结构化语义表示和扎实推理。所提出的算法首先准备自然语言处理（NLP）印地语视觉文档，随后进行光学字符识别（OCR）进行天城文提取和语言预处理，包括分词化、词形化、词性标记和依赖解析等多种过程。同时，通过物体检测从图像中提取视觉实体，并通过置信阈值进行过滤。文本和视觉实体通过多语言变换器模型XLM-R和CLIP-ViT嵌入到共享语义空间中，并使用基于余弦相似度的阈值进行对齐。这些对齐实体与基于规则的依赖关系结合，生成多模三元态。该协议生成一个结构化的多模态知识图谱，编码为主体-关系-客体三元组，并基于印度知识库有明确的视觉基础。这些输出将支持印地语视觉文档的跨模态查询、实体对齐和知识图推理，并为低资源语言环境中的多模态知识构建提供可复制的框架。

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

知识图谱（KGs）是一种结构化的语义图表示，其中实体被建模为节点，关系被建模为边。它能够在问答、推荐系统和信息提取等多种应用中实现高效的知识检索和情境推^理。在过去十年中，基格建筑方法得到了显著发展。然而，大多数现有方法主要针对资源丰富的语言设计，这些语言主要依赖大规模文本语料库²。因此，低资源语言仍然代表性不足，限制了基于幼稚语言的技术在文化和语言^{多样性环境中的}适用性 3.与此同时，越来越多的现实世界文献——尤其是在教育、文化和遗产领域——拥有丰富的视觉信息，而这些信息是文本中心图^{构建方法无法}充分捕捉的。

多模态知识图谱（MMKG）通过整合非文本模态（如图像、音频或视频）来扩展传统知识图，从而实现基于基础的语义表示⁵.以往的MMKG框架，包括IMGpedia、Richpedia和ImageGraph，展示了将视觉信息与文本实体关联以提升语义查询和推理的价值，^6,7,8。尽管取得了这些进展，现有方法大多以英语为中心，依赖策划的元数据或静态数据集，并且在直接从非结构化可视化文档构建MMKG时提供了有限的程序指导。此外，这些框架并未明确解决低资源语言固有的挑战，如脚本特有的光学字符识别（OCR）错误、形态变异性和稀疏注释数据（^9,10^）。

该框架的目标是通过系统地对齐文本和视觉实体，执行一步步方法，从印地语视觉文档构建多模态知识图谱。所提出的框架——视觉-语义对齐印地语多模态知识图谱（VISHAM-KG）——将基于规则的语言分析与基于对象提取的计算机视觉相结合，实现可视化文档的动态图构建。与现有的MMKG方法不同，VISHAM-KG直接从原始印地语文本和图像中提取实体和关系，应用基于依赖的语法规则进行关系识别，并利用基于嵌入的相似阈值进行跨模态实体对齐，而非依赖外部^11,12。

VISHAM-KG 适用于文本和视觉内容在语义上相互关联的插图文档，如儿童故事¹³、教育材料、报纸¹¹以及文化叙事。在执行上述框架时，遇到了一些限制，如对光学字符识别质量、对象检测覆盖率以及领域特定词汇可用性的依赖。通过明确记录每个程序步骤，VISHAM-KG 提供了一种可复制的多模态知识图谱构建协议，适用于低资源语言语境，同时支持扎实的语义推理和跨模态分析。

VISHAM-KG 与现有 MMKG 方法不同之处在于直接从无结构的印地语文本和图像中提取实体和关系;采用基于规则的依赖解析来提取关系;以及通过嵌入的相似度阈值对齐文本和视觉实体，而非匹配^元数据^8,10（见图1）。

图1：端到端框架。图示了多模态知识图 VISHAM-KG 的端到端框架。请点击此处查看该图的放大版本。

该协议适用于具有对齐文本-图像内容的插图文档，如教育材料和文化叙事。在此框架下，YOLOv8因其在视觉文档对象检测上的高效和鲁棒性而被选中。XLM-R 因其强大的跨语言表示能力被选中，适合低资源的印地语文本处理;而 CLIP-ViT 因其在学习共享视觉文本嵌入空间方面已被验证的能力而被选中，从而实现有效的跨模态对齐。但它受限于OCR准确性、物体检测覆盖范围和领域特定词汇限制。

相关工作

传统知识图 G=（E，R，F）由实体 E、关系 R 和事实三元组 F 组成，其中每个三元组形式为（h，r，t）⁸。进一步，多模态知识图谱（MMKG）包含与非文本模态（如图像、音频和视频）相关的E实体¹⁴。

MMKG中主要采用两种策略来表示视觉数据：
作为附加于文本实体的属性
作为通过特定注释关系连接的视觉实体

一项值得关注的研究是IMGpedia，它通过引入视觉描述符和相似度指标来增强维基媒体图像数据。该模型解决了传统数据集的局限性，传统数据集主要包含元数据，通过将图片与DBpedia Commons⁹链接实现可视化语义查询和相似性评估。

同样，另一部MMKG的Richpedia则解决了学术研究中知识图谱不完整的问题。它汇总了维基百科的2,883,162个视觉实体和维基数据中的30,638个文本实体。Richpedia 支持切面级查询，并采用从非结构化内容中提取语义关系的方法，包括图片元素、相关文本和超链接¹⁵。

ImageGraph通过基于FB15K数据集构建关系知识图，丰富了829,931张网络爬取图片和说明，扩展了这项研究。它包含14,870个实体和1,330种关系类型，支持基于概念的^{查询参数，}支持可视化上下文查询和更准确的响应。

VisualSem 是另一个综合性的多语言知识图谱，整合了视觉和文本信息。它包含89,896个实体，超过130万条注释和938,100张图片。VisualSem 设计用于数据增强和接地等应用，增强了跨语言的语义解释，并可无缝集成到各种处理流程^中。

还开发了多种MMKG模型，以支持链路预测、三元组分类和实体匹配等任务。这些模型解决了单模态图的局限性，特别是它们无法捕捉跨模态信息的复杂性 16,17,18。

基于语言的MMKG模型与VISHAM-KG之间的关键比较见表1。它特别关注它们在印地语、泰米尔语或梵语等低资源语言中的优势和局限性。这些方法通常假设访问高质量的文本语料库、可靠的语言注释和大规模预训练模型。这些因素限制了它们对低资源语言的适用性。特别是，依赖OCR的管道常被针对拉丁字母优化，但对印度字母的准确率较低，导致文本提取噪声或不完整。此外，语言预处理、词性标记和命名实体识别通常在高资源语言上进行训练。当它们应用于形态丰富、语法灵活的语言（如印地语）时，表现明显下降。

MMKG模型	优势	低资源环境下的局限性
IMG百科	与DBpedia集成图片	仅聚焦英语内容
	支持视觉相似性查询	不支持非拉丁字母
		有限的文化背景对区域视觉
里奇百科	结合维基百科和维基数据中的视觉和文本实体	印度或民间知识的代表性不足
里奇百科	可用切面级查询	假设高质量对齐，而区域数据集中缺乏这种比对
图像图	关系型 KG 附图片和说明	针对英语语料库调校的实体和关系提取
图像图	支持基于三元组的扩展查询	在字幕稀疏或元数据缺失的环境中失败
视觉模拟器	多语言支持	亚洲低资源语言的代表性不足
视觉模拟器	在神经语义流水线中非常有用	没有对天城文或基于文化的视觉语义的支持
维沙姆-KG	关系型 KG 带有印度语图像	语言依赖
维沙姆-KG	形态丰富语法的语义管道	这取决于不同语言的POS标签。

表1：MMKG与低资源语言局限性的关键比较。

现有的MMKG模型依赖静态知识图谱，无法适应因单一数据集训练而产生的动态现实环境。因此，开发具有^{动态能力的}模型至关重要。在此语境下存在以下限制：在视觉活动如对象识别、提取和注释中错误使用文本数据;开发可扩展的方法，用于从异构来源构建多模态知识图谱;并将上下文信息融入多模态知识图谱，以提升理解和解读。

在这种情况下，VISHAM-KG 不同于早期方法，采用先进的可视化提取技术，直接从视觉文档中定义节点和关系。它结合了标准文本处理步骤，如分词化、取消塞字和词性标记，并结合语义图技术来结构化提取的知识。通过融合计算机视觉与本体论，该系统具有多项优势：¹⁹：增强的适应性，允许知识库根据应用特定需求演进;改进的语义表示，支持系统间互操作性;以及更好的语义推断和检索，实现上下文层级知识库的增强。

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

该协议无需伦理审批，因为它仅使用公开可用的非人类、非敏感的视觉和文本数据。表2 提供了所有工具和技术及其依赖关系。所有用于重现多模态知识图谱构建流程所需的源代码、配置文件和脚本均可在公共的 GitHub 仓库中获得（preeti017phdit22-wq/VISHAM_KG.）。该仓库包含安装说明和依赖规范，以促进可重复性。

模块	模型 / 工具	版本	框架	目的
光学字符识别	EasyOCR	v1.7.1	PyTorch	印地语文本提取
POS + 依赖解析	诗节（嗨）	v1.6.1	PyTorch	语言解析
NER	BiLSTM-CRF	定制训练	PyTorch	印地语实体识别
物体检测	YOLOv8	v8.0.208	超溶菌	可视化实体提取
文本嵌入	XLM-R 基础	2023-05	拥抱脸	多语言文本编码
视觉嵌入	CLIP-ViT-B/32	2022-09	OpenAI	图像编码
图存储	Neo4j	v5.13	Neo4j	KG结构
相似性	余弦相似性	–	数字派	跨模态对齐

表2：VISHAM-KG构建各步骤中使用的工具和技术。

1. 知识图谱构建

数据准备
1. 从上述来源收集10份儿童故事文献^11,13。确认每份文件是否有图片文档。
2. 每个文档作为一个结构化单元存储，包含图片文件（PNG或JPG）及对应的印地语文本。
3. 为每张图片与其关联文本分配唯一文档标识符。
文本提取与预处理
1. 使用EasyOCR（配置为天城文）从扫描图像中提取文本，从文档图像中提取印地语文本（见图2）。
2. 通过去除OCR伪影和多余符号来规范提取的文本。
3. 执行句子分割和分词。将文本标记化为文字。使用预设的印地语停用词列表删除停止词。
4. 使用兼容印地语的自然语言处理软件（Stanza （Hi）进行词性标记和依赖解析。
5. 使用BiLSTM-CRF模型识别命名实体。
6. 使用依赖规则模板提取主体-关系-宾语三元组。生成带有标记语法关系的依赖树，用于构造有意义的三元组（见图3）。

图2：利用纯动词关系从印地语文本中提取简单的主语-动词-宾语三元组。流程图描述了如何利用纯动词关系从印地语文本中提取简单的主语-动词-宾语三元组。请点击此处查看该图的放大版本。

图3：扩展动词介词关系。图中展示了扩展的动词介系关系，以识别三连音的形成。请点击此处查看该图的放大版本。

可视化实体提取
1. 加载每张图像，并使用YOLOv8对象检测模型进行对象检测（见图4）。
2. 提取图像中识别对象的边界框、类别标签和置信度评分（见图5）。
3. 通过保留置信度评分为0.50的检测来过滤物体≥检测。将过滤对象作为可视化实体记录（可选）。保存带有边界框坐标的视觉实体，并生成这些实体的列表。

图4：物体检测。图示了使用 YOLOv8 进行物体检测。请点击此处查看该图的放大版本。

图5：视觉特征提取及物体检测与识别。图示了使用卷积层和YOLOv8进行视觉特征提取，随后基于相似度评分进行区域细化和比对。请点击此处查看该图的放大版本。

实体嵌入与对齐
1. 使用 XLM-R 嵌入为文本实体生成上下文嵌入。使用CLIP-ViT嵌入为检测对象生成视觉嵌入（见图6）。
2. 将文本和视觉嵌入投影到共享的潜在空间中，并将它们归一化为单位长度。
3. 计算每个文本嵌入和视觉嵌入对之间的余弦相似度。当相似度≥预定义的阈值τ（默认τ=0.65）时，对齐实体。生成一份对齐的文本-图像实体对列表。

图6：视觉对象检测与POS标签融合。图示了可视化对象检测和POS标签融合，用于知识图三元组提取。YOLO和CIFAR-100识别显示多模态对齐的天体。请点击此处查看该图的放大版本。

三重态提取
1. 利用依存规则提取主语-动词-宾语结构的文本三元组。
2. 利用空间接近性和共现规则推导视觉关系。
3. 通过使用关系标签链接对齐的文本和视觉实体，生成多模三元组。验证三元组的句法和语义一致性。
知识图谱构建
1. 将比对实体转换为RDF兼容的三元组。将文本和视觉三元组合并成统一的图。
2. 将实体作为节点，关系作为边。使用显式谓词编码多模链路。将结果图存储在 Neo4j（可选）中。现在生成一个带有对齐文本-图像三元组的最终多模态知识图谱。
  注意：图 7展示了一种系统方法，用于从印地语视觉文档构建多模态知识图谱。

图7：多模态知识图谱构建的流水线。流程图代表了VISHAM-KG的管道。请点击此处查看该图的放大版本。

请使用下面的伪代码来构建知识图谱。
输入：
D ：印地语文本-图像文档集
τ ：比对的相似阈值
预处理每个文档对 （T，I）∈D
如果扫描 了 T ，则使用 OCRPerform 分词、词汇化和停止字去除提取文本 T'
使用 Stanza 应用 POS 标签和依赖解析
使用 YOLOv8 检测 I 中的物体
提取边界框、_标签Li和置信度分数>0.5
生成嵌入
使用 BiLSTM-CRF 从 T' 中识别命名实体 E_T
从 L_i 中提取视觉实体 E_V
计算带有XLM-R的文本嵌入E_T。
用 CLIP-ViT 计算可视化嵌入 E_V
实体对齐与三元组提取
对于E_T x_{E V}中的每对（e_{t，e v}）：
计算余弦相似度 S = cos（E_{V，E T}）
设定阈值 τ=0.6
如果 s≥τ，则加入三元组（e_t， has_image， e_v）以集合 F。
利用依赖规则从 T' 中提取 （h， r， t） 三元组。
从空间或标题共现中推导出视觉关系。
将E_、t 和E_、V 投入到一个共享的潜在空间中。
对三重组进行评分，并保留置信度高于阈值的部分。
向图 G添加经过验证的三元组和实体。
输出： Neo4j中的最终公斤级。

2. 评估程序

注意：印地语儿童故事被选为VISHAM-KG框架评估对象，因为它们提供了受控、视觉化的叙事，具有清晰的实体和关系，能够在领域规模部署前可靠验证多模态对齐、图构建和推断。所有超参数设置均见表3。

模块	超参数	尺寸
光学字符识别	置信阈值	0.5
实体提取	嵌入维数	300
物体检测	置信阈值	0.5
	输入图像尺寸	640×640
文本嵌入	语言模型	XLM-R
	嵌入维数	768
图像嵌入	视觉模型	CLIP-ViT-B/32
	嵌入维数	768
路线排列	相似度指标	余弦相似性
文本-图像对齐	余弦相似度阈值（τ）	0.6
链接预测	嵌入维数	100
	训练时期	50
	负抽样	校服
评价	列车与试车分段	80 / 20

表3：框架的超参数设置。

组成部分	伯爵
文档图片	10
文本实体	186
视觉实体	97
文本导出关系	105
视觉衍生关系	41
文本与视觉三连音	312

表4：知识图谱与三元组统计。

数据集组合与分区
1. 评估数据集包含10个儿童故事，每个故事都配有插图。执行步骤1.2-1.4中提到的实体提取过程。结果见表4。
2. 构建两种图变体：一种仅使用文本三元组的纯文本知识图谱（T-KG），另一种使用融合的文本和视觉三元组的多模态知识图谱（MM-KG）。
3. 为确保受控评估，两个图使用相同的数据拆分。
4. 随机划分提取的三元组，分别是80%用于图构建（训练集），20%用于评估（测试集）。将这种分工一致应用于文本KG和MMKG，以确保公平对比。
基线与评估指标
1. 文本KG作为基础。所提出的框架VISHAM KG代表了该方法。对于两个图，使用相同的本体，并配备实体标识符和评估查询。两张图唯一的区别是 VISHAM-KG 中包含了视觉实体。
评估指标与链接预测
1. 使用标准链路预测指标²⁰：平均互惠排名（MRR）、Hits@1、Hits@3、Hits@10。Hit@K，定义为正确实体出现在前N排名的案例比例。
2. 对于每个测试三元组（头、关系、尾），遮罩头或尾实体。根据共享嵌入空间中的余弦相似度对所有候选实体进行排名（见表5）。

文本实体	视觉实体	余弦相似性
शेर		0.78
लोमड़ी		0.82

表5：文本与图像嵌入之间的余弦相似度评分。

独立生成仅文本嵌入和多模嵌入的预测（VISHAM-KG）。
使用平均互惠排名（MRR）计算结果，作为正确实体在所有查询中互惠排名的平均值²¹。使用表6，将所有结果以十进制格式表示，以保证实验间的一致性²²。

模型	MRR	Hits@1	Hits@3	Hits@10
交通工程	0.42	0.21	0.48	0.72
ComplEx	0.47	0.26	0.52	0.74
旋转地球	0.51	0.31	0.58	0.74
维沙姆-KG（文本）	0.49	0.36	0.62	0.76

表6：纯文本三元组的链接预测表现。

利用指标验证多模态知识图在恢复缺失环节中的预测能力，如表7所示。

模型	MRR	Hits@1	Hits@3	Hits@10
国际共和国	0.46	0.34	0.63	0.72
视觉伯特	0.52	0.35	0.61	0.72
维尔伯特	0.54	0.38	0.64	0.75
维沙姆-KG	0.57	0.41	0.66	0.79

表7：跨模态三元组预测任务的表现。

请使用下面的伪代码进行评估。
对于每个知识图谱变体 G∈{G_T，G _MM}:
三元组划分
从G中提取所有三重奏_Tall 。
将_T随机划分为训练集（80%）和测试集T_检验（20%）。
利用T_列中的三重态构造图G_列。
相似度评分与嵌入
对于每个检验三检验（h，r，t）∈T_检验：
将头或尾实体掩盖成 query （h，r，？）或（？，r，t）。
从G_列车中的实体生成候选实体集C。
计算每个_{e c}∈ C 的嵌入相似度评分 S=cos（e_查询，e_c）。
根据相似度递减对所有候选实体进行排名。
度规计算
计算每个查询中正确实体的排名。
计算所有测试查询的平均互易秩（MRR）。
计算Hits@1、Hits@3和Hits@10。
比较纯文本的KG G_T 和多模态KG G_MM的评估分数。
输出： 提供可直接归因于多模积分的定性和定量结果
跨模态相似性
1. 计算相似度评分以评估文本嵌入与视觉嵌入之间的对齐性。将文本嵌入和可视化嵌入归一化为单位长度，以确保比例一致。以余弦相似度作为主要度量²²。
2. 对于文本实体嵌入和视觉实体嵌入的每对（e_t， e_v），计算相似度得分²³。
  Score（e_t，e _v） = λ · sim_text（e_t，e _v） + （1-λ） · sim_visual （e_t，e _v） 。
  其中：
  λ∈ [0,1] 是模态加权参数，
  sim_文本 是文本嵌入之间的余弦相似度，
  模拟_视觉 是视觉嵌入之间的余弦相似度。

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

所提的VISHAM-KG通过相似度评分计算和链路预测任务进行评估，这些任务在知识表示基准数据集中常用。

实验装置

利用两个既定任务评估构建的多模态知识图：（i）跨模态相似性评估和（ii）知识图链接预测。所有评估都应仅针对协议端点生成的最终图输出进行。在评估前固定所有随机种子，并在实验间应用相同的预处理（见图8）。

图8：由印地语小故事构建的文本和多模态知识图示。第一张图展示了仅文本语义网络，第二张图是 VISHAM-KG 的...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG 框架的性能主要基于三个关键组成部分：天城文的光学字符识别（步骤 1.2）、基于基于信心的 Clip-ViT 视觉对象检测（步骤 1.3）以及基于嵌入的跨模态对齐（步骤 1.4）。OCR的准确性直接影响下游的语言解析和实体提取。此阶段引入的误差会传播到关系识别，降低比对精度。通过印地语特有的规范化、词汇化和基于依存的规则强制来缓解这一影响，这些方法在三元组^生成10前稳定了实体表示。所有比较结果见 下表10。

相位

文本KG

多模态KG

改进

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者声明，关于本论文的发表不存在利益冲突。

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
BiLSTM-CRF与印度NER模型	定制训练	PyTorch	命名实体识别
CLIP-ViT-B/32	2022-09	OpenAI	可视化嵌入生成
中央处理器	英特尔i9	英特尔	通用计算
EasyOCR	v1.7.1	Jaided AI	从图像中提取印地语文本
GPU	NVIDIA RTX 3090	NVIDIA	模型推理加速
印地语儿童故事	10层	策划数据集	评估语料库
Neo4j	v5.13	Neo4j 公司	知识图谱存储
数字派	v1.24	NumPy 社区	数值计算
熊猫	2.0版本	熊猫社区	数据处理
蟒蛇	v3.10	Python 软件基础	流水线实现
PyTorch	2.0版本	元人工智能	深度学习框架
Stanza（印地语模式）	v1.6.1	斯坦福国家语言物理学	POS 标记与依赖解析
XLM-R（基础版）	2023-05	拥抱脸	文本嵌入生成
YOLOv8	v8.0.208	超溶菌	视觉对象检测

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023).
Ektefaie, Y., et al. Generalized multimodal models for life sciences. Nat Mach Intell. 5 (4), 340-350 (2023).
Exner, P., Nugues, P. Entity extraction: From unstructured text to DBpedia RDF triples. Proc CEUR Workshop. , 58-69 (2012).
Fan, T., Wang, H., Hodel, T. Multimodal knowledge graph construction of Chinese traditional operas and sentiment and genre recognition. J Cultural Heritage. 62, 32-44 (2023).
Fang, Q., Zhang, X., Hu, J., Wu, X., Xu, C. Contrastive multimodal knowledge graph representation learning. IEEE Trans Knowl Data Eng. 35 (9), 8983-8996 (2022).
Fang, Y., Kuan, K., Lin, J., Tan, C., Chandrasekhar, V. Object detection meets knowledge graphs. Proc IJCAI. , 1-8 (2017).
Fensel, D., et al. Introduction: What is a knowledge graph. , Semant WebSpringer. 1-10 (2020).
Ferrada, S., Bustos, B., Hogan, A. IMGpedia: A linked dataset with content-based analysis of Wikimedia images. , Semant WebSpringer. 84-93 (2017).
Gong, D., Wang, D. Z. Extracting visual knowledge from the web with multimodal learning. Proc IJCAI. , 1718-1724 (2017).
Hollink, L., Bedjeti, A., Van Harmelen, M., Elliott, D. A corpus of images and text in online news. Proc LREC. , 1377-1382 (2016).
Jain, P., Darbari, H., Bhavsar, V. C. Vishit: A visualizer for Hindi text. Proc IEEE Conf. , 886-890 (2014).
StoryWeaver: Free multilingual story platform for children. , Pratham Books. https://storyweaver.org.in/en (2025).
Zhu, B., et al. MMIEA: Multimodal interaction entity alignment model for knowledge graphs. Inf Fusion. 100, 101935(2023).
Wang, M., Wang, H., Qi, G., Zheng, Q. Richpedia: A large-scale, comprehensive multimodal knowledge graph. Big Data Res. 22, 100159(2020).
Liu, Y., et al. MMKG: Multimodal knowledge graphs. , Semant WebSpringer. 459-474 (2019).
Liang, W., Meo, P. D., Tang, Y., Zhu, J. A survey of multimodal knowledge graphs: Technologies and trends. ACM Comput Surv. 56 (11), 1-41 (2024).
Troussas, C., Krouska, A., Tselenti, P., Kardaras, D. K., Barbounaki, S. Enhancing personalized educational content recommendation through cosine similarity-based knowledge graphs and contextual signals. Information. 14 (9), 505(2023).
Vats, P., Sharma, N., Sharma, D. K. HKG: A novel approach for low resource Indic languages to automatic knowledge graph construction. ACM Trans Asian Low-Resour Lang Inf Process. , (2023).
Wang, D., et al. MM-transformer: A transformer-based knowledge graph link prediction model that fuses multimodal features. Symmetry. 16 (8), 961(2024).
Wang, Z., Liu, X., Liu, Z., Weng, Y. A link prediction method for multimodal knowledge graphs based on adaptive fusion and modality information enhancement. Neural Netw. 191, 107771(2025).
Huang, S., Cai, Y., Yuan, L., Wang, J. A knowledge-enhanced network for joint multimodal entity-relation extraction. Inf Process Manag. 62 (3), 104033(2025).
Wang, L., Cheng, H., Wang, R., Huang, X. Machining scheme selection of features based on process knowledge graph and improved cosine similarity matching. Machines. 13 (3), 1-20 (2025).
Zhu, J., et al. A novel cosine-derived probability distribution: Theory and data modeling with computer knowledge graph. Alex Eng J. 103, 1-11 (2024).
Li, Z., Tang, J., Mei, T. Deep collaborative embedding for social image understanding. IEEE Trans Pattern Anal Mach Intell. 41 (9), 2070-2083 (2018).
Qian, Y., Pan, L. Leveraging multimodal features for knowledge graph entity alignment based on dynamic self-attention networks. Expert Syst Appl. 228, 120363(2023).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

基于规则的语言分析和计算机视觉的多模态知识图谱

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles