Method Article

Graphes de connaissances multimodaux basés sur l’analyse linguistique basée sur des règles et la vision par ordinateur

DOI:

10.3791/69803

April 3rd, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG est un cadre multimodal qui construit des graphes de connaissances à partir de documents visuels en hindi en alignant les entités textuelles et visuelles. Il combine l’analyse linguistique basée sur des règles avec des techniques de vision par ordinateur pour produire des triplets sujet-relation-objet dans des contextes de langues indiennes à faible capacité en ressources.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Le Graphe de connaissances multimodal visual-sémantique aligné hindi (VISHAM-KG) est un cadre conçu pour construire des graphes de connaissances multimodaux (KG) cohérents à partir de documents visuels hindi en alignant systématiquement les entités textuelles visuelles. L’objectif de cette étude est d’intégrer l’analyse linguistique basée sur des règles avec la détection d’objets par vision par ordinateur, qui soutient la représentation sémantique structurée et le raisonnement fondé dans les langues indiques à faible capacité en ressources. L’algorithme proposé commence par la préparation de documents visuels en hindi en traitement du langage naturel (NLP), suivie de la reconnaissance optique des caractères (OCR) pour l’extraction d’écriture devanagari et le prétraitement linguistique, qui inclut divers processus tels que la tokenisation, la lemmatisation, le tagage des parties du discours et l’analyse des dépendances. Parallèlement, les entités visuelles sont extraites des images via la détection d’objets et filtrées à l’aide de seuils de confiance. Les entités textuelles et visuelles sont intégrées dans un espace sémantique partagé à l’aide du modèle transformateur multilingue XLM-R, ainsi que CLIP-ViT, et alignées à l’aide de seuils basés sur la similarité cosinus. Ces entités alignées sont combinées avec des relations de dépendance basées sur des règles pour générer des triplets multimodaux. Le protocole produit un graphe de connaissances multimodal structuré encodé en triplets sujet-relation-objet, avec un ancrage visuel explicite basé sur la base de connaissances indienne. Ce résultat permettra de soutenir l’interrogation intermodale, l’alignement d’entités et le raisonnement par graphe de connaissances pour les documents visuels en hindi, et fournira un cadre reproductible pour la construction multimodale des connaissances dans des contextes linguistiques à faible niveau de ressources.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les graphes de connaissances (KG) sont des représentations sémantiques structurées dans lesquelles les entités sont modélisées comme des nœuds et les relations comme des arêtes. Il permet une récupération efficace des connaissances et un raisonnement contextuel dans diverses applications telles que la réponse aux questions, les systèmes de recommandation et l’extractiond’informations. Au cours de la dernière décennie, les méthodologies de construction des KG ont été considérablement développées. Cependant, la plupart des approches existantes sont conçues pour des langues riches en ressources, qui reposent principalement sur des corpus textuels<....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Aucune approbation éthique n’est requise pour ce protocole, car il utilise exclusivement des données visuelles et textuelles non humaines, non sensibles et accessibles au public. Le tableau 2 présente tous les outils et techniques ainsi que leurs dépendances. Tout le code source, fichiers de configuration et scripts nécessaires pour reproduire le pipeline de construction multimodale de graphes de connaissances sont disponibles dans un dépôt public GitHub (preeti017phdit22-wq/VISHAM_KG.). Le dépôt comprend des instructions d’installation et des spécifications de dépendance pour faciliter la reproductibilité.

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Le VISHAM-KG proposé est évalué par le calcul du score de similarité et des tâches de prédiction de liens couramment utilisées dans le jeu de données de référence de représentation des connaissances.

Installation expérimentale

Évaluer le graphe de connaissances multimodal construit à l’aide de deux tâches établies : (i) l’évaluation de la similarité intermodale et (ii) la prédiction des liens des graphes de connaissances. Effectuer toutes les évalua.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La performance du cadre VISHAM-KG repose principalement sur trois composantes clés : l’OCR pour le texte devanagari (étape 1.2), la détection visuelle des objets basée sur la confiance utilisant Clip-ViT (étape 1.3) et l’alignement intermodal basé sur l’intégration (étape 1.4). La précision de la CORE influence directement l’analyse linguistique en aval et l’extraction des entités. Les erreurs introduites à ce stade se propagent à l’identification des relations et réduisent la précision .......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs déclarent qu’il n’existe aucun conflit d’intérêts concernant la publication de cet article.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
BiLSTM-CRF et modèle Indic NEREntraîné sur mesurePyTorchReconnaissance d’entités nommées
CLIP-ViT-B/322022-09OpenAIGénération d’immersion visuelle
CPUIntel i9IntelCalcul général
EasyOCRv1.7.1IA désabuséeExtraction de texte hindi à partir d’images
GPUNVIDIA RTX 3090NVIDIAAccélération par inférence de modèle
Histoires pour enfants en hindi10 étagesJeu de données sélectionnéCorpus d’évaluation
Neo4jv5.13Neo4j Inc.Stockage des graphes de connaissances
NumPyv1.24Communauté NumPyCalculs numériques
Pandasv2.0Communauté PandasGestion des données
Pythonv3.10Fondation Python SoftwareImplémentation du pipeline
PyTorchv2.0Méta IACadre d’apprentissage profond
Stanza (modèle hindi)v1.6.1Stanford NLPMarquage POS et analyse des dépendances
XLM-R (Base)2023-05Visage d’ÉtreinteGénération d’intégration de texte
YOLOv8v8.0.208UltralytiquesDétection visuelle d’objets

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
  2. Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Multimodal Knowledge GraphsRule Based Linguistic AnalysisComputer VisionVisual Entity ExtractionHindi Visual DocumentsOptical Character RecognitionDependency ParsingEntity AlignmentMultilingual TransformerKnowledge Graph Reasoning

Related Articles