Graphes de connaissances multimodaux basés sur l’analyse linguistique basée sur des règles et la vision par ordinateur

Preeti Vats; Nonita Sharma; Deepak Kumar Sharma; Alongbar Wary

doi:10.3791/69803

Method Article

Graphes de connaissances multimodaux basés sur l’analyse linguistique basée sur des règles et la vision par ordinateur

DOI:

10.3791/69803

⸱

April 3rd, 2026

Preeti Vats¹ , Nonita Sharma¹ , Deepak Kumar Sharma¹ , Alongbar Wary¹

¹Indira Gandhi Delhi Technical University for Women

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG est un cadre multimodal qui construit des graphes de connaissances à partir de documents visuels en hindi en alignant les entités textuelles et visuelles. Il combine l’analyse linguistique basée sur des règles avec des techniques de vision par ordinateur pour produire des triplets sujet-relation-objet dans des contextes de langues indiennes à faible capacité en ressources.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Le Graphe de connaissances multimodal visual-sémantique aligné hindi (VISHAM-KG) est un cadre conçu pour construire des graphes de connaissances multimodaux (KG) cohérents à partir de documents visuels hindi en alignant systématiquement les entités textuelles visuelles. L’objectif de cette étude est d’intégrer l’analyse linguistique basée sur des règles avec la détection d’objets par vision par ordinateur, qui soutient la représentation sémantique structurée et le raisonnement fondé dans les langues indiques à faible capacité en ressources. L’algorithme proposé commence par la préparation de documents visuels en hindi en traitement du langage naturel (NLP), suivie de la reconnaissance optique des caractères (OCR) pour l’extraction d’écriture devanagari et le prétraitement linguistique, qui inclut divers processus tels que la tokenisation, la lemmatisation, le tagage des parties du discours et l’analyse des dépendances. Parallèlement, les entités visuelles sont extraites des images via la détection d’objets et filtrées à l’aide de seuils de confiance. Les entités textuelles et visuelles sont intégrées dans un espace sémantique partagé à l’aide du modèle transformateur multilingue XLM-R, ainsi que CLIP-ViT, et alignées à l’aide de seuils basés sur la similarité cosinus. Ces entités alignées sont combinées avec des relations de dépendance basées sur des règles pour générer des triplets multimodaux. Le protocole produit un graphe de connaissances multimodal structuré encodé en triplets sujet-relation-objet, avec un ancrage visuel explicite basé sur la base de connaissances indienne. Ce résultat permettra de soutenir l’interrogation intermodale, l’alignement d’entités et le raisonnement par graphe de connaissances pour les documents visuels en hindi, et fournira un cadre reproductible pour la construction multimodale des connaissances dans des contextes linguistiques à faible niveau de ressources.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les graphes de connaissances (KG) sont des représentations sémantiques structurées dans lesquelles les entités sont modélisées comme des nœuds et les relations comme des arêtes. Il permet une récupération efficace des connaissances et un raisonnement contextuel dans diverses applications telles que la réponse aux questions, les systèmes de recommandation et l’extraction^{d’informations.} Au cours de la dernière décennie, les méthodologies de construction des KG ont été considérablement développées. Cependant, la plupart des approches existantes sont conçues pour des langues riches en ressources, qui reposent principalement sur des corpus textuels^{à grande échelle 2}. En conséquence, les langues à faibles ressources restent sous-représentées, limitant l’applicabilité des technologies basées sur la KG dans des contextes culturellement et linguistiquement^{divers 3}. Parallèlement, une proportion croissante de documents réels — en particulier dans les domaines éducatifs, culturels et patrimoniaux — possèdent une information visuelle riche, insuffisamment capturée par les méthodes de construction de graphes centrées sur^{le texte 4}.

Les graphes de connaissances multimodaux (MMKG) étendent les KG conventionnels en intégrant des modalités non textuelles telles que des images, de l’audio ou de la vidéo pour permettre une représentation sémantique^{ancrée 5}. Les précédents cadres MMKG, notamment IMGpedia, Richpedia et ImageGraph, démontrent la valeur d’associer l’information visuelle à des entités textuelles pour améliorer la requête sémantique et le raisonnement ^6,7,8. Malgré ces avancées, les méthodes existantes sont largement centrées sur l’anglais, dépendent de métadonnées sélectionnées ou de jeux de données statiques, et fournissent des conseils procéduraux limités pour construire des MMKG directement à partir de documents visuels non structurés. De plus, ces cadres ne traitent pas explicitement les défis inhérents aux langages à faible ressources, tels que les erreurs spécifiques à un script de reconnaissance optique de caractères (OCR), la variabilité morphologique et les données annotées^clairsemées ^9,10.

L’objectif de ce cadre est d’exécuter une méthodologie étape par étape pour construire un graphe de connaissances multimodal à partir de documents visuels en hindi en alignant systématiquement les entités textuelles et visuelles. Le cadre proposé, Visual-Semantic Hindi-Aligned Multimodal Knowledge Graph (VISHAM-KG), intègre l’analyse linguistique basée sur des règles avec la vision par ordinateur, basée sur l’extraction d’objets, afin de permettre la construction dynamique de graphes de documents visuels. Contrairement aux approches MMKG existantes, VISHAM-KG extrait directement des entités et des relations du texte et des images hindi bruts, applique des règles grammaticales basées sur des dépendances pour l’identification des relations, et effectue un alignement intermodal des entités en utilisant des seuils de similarité basés sur l’intégration plutôt que de s’appuyer sur^{des 11,12} externes.

VISHAM-KG est destiné aux documents illustrés dans lesquels le contenu textuel et visuel est lié de façon sémantique, tels que les histoires pour enfants¹³, le matériel éducatif, le journal¹¹ et les récits à fondement culturel. Certaines limitations, telles que la dépendance à la qualité de la reconnaissance optique des caractères, la couverture de détection d’objets et la disponibilité du vocabulaire spécifique au domaine, ont été rencontrées lors de l’exécution du cadre mentionné. En documentant explicitement chaque étape procédurale, VISHAM-KG fournit un protocole réplicable pour la construction de graphes de connaissances multimodals dans des contextes linguistiques à faible ressource tout en soutenant le raisonnement sémantique fondé et l’analyse intermodale.

VISHAM-KG se distingue des approches MMKG existantes en extrayant directement des entités et des relations à partir de textes et d’images hindi non structurés ; en utilisant l’analyse syntaxique basée sur des règles pour l’extraction de relations ; et l’alignement des entités textuelles et visuelles via des seuils de similarité basés sur l’inclusion plutôt que par la correspondance des métadonnées ^8,10 (Figure 1).

Figure 1 : Cadre de bout en bout. La figure illustre le cadre de bout en bout pour le graphe de connaissances multimodales VISHAM-KG. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Ce protocole s’applique aux documents illustrés avec un contenu texte-image aligné, tels que le matériel éducatif et les récits culturels. Dans ce cadre, YOLOv8 est choisi pour son efficacité et sa robustesse dans la détection d’objets sur des documents visuels. XLM-R est sélectionné pour ses représentations croisées fortes, bien adaptées au traitement de texte hindi à faible capacité en ressources, et CLIP-ViT est utilisé pour sa capacité éprouvée à apprendre les espaces d’intégration de texte visuel partagé, qui permettent un alignement intermodal efficace. Mais elle est limitée par la précision de l’OCR, la couverture de détection d’objets et les contraintes de vocabulaire spécifiques au domaine.

Travaux connexes

Un graphe de connaissance traditionnel G=(E,R,F) se compose des entités E, des relations R et des triplets factuels F, où chaque triplet a la forme (h,r,t⁾⁸. Pour étendre cela, un graphe de connaissances multimodal (MMKG) intègre des entités E associées à des modalités non textuelles telles que les images, l’audio et^{la vidéo 14}.

Deux stratégies principales sont utilisées dans les MMKG pour représenter des données visuelles :
En tant qu’attributs attachés à des entités textuelles
En tant qu’entités visuelles connectées par une relation annotée spécifique

Une étude notable est IMGpedia, qui améliore les données d’images Wikimedia en incorporant des descripteurs visuels et des mesures de similarité. Ce modèle répond aux limites des ensembles de données traditionnels qui incluent principalement des métadonnées, permettant des requêtes sémantiques visuelles et une évaluation de similarité en liant les images à DBpedia^{Commons 9}.

De même, un autre Richpedia du MMKG aborde le défi des graphes de connaissances incomplets dans la recherche scientifique. Il regroupe 2 883 162 entités visuelles provenant de Wikipédia et 30 638 entités textuelles provenant de Wikidata. Richpedia prend en charge les requêtes au niveau des aspects et utilise des méthodes pour extraire les relations sémantiques à partir de contenus non structurés, incluant les éléments d’image, le texte associé et les hyperliens¹⁵.

ImageGraph étend cette étude en construisant un graphe de connaissances relationnel basé sur le jeu de données FB15K, enrichi de 829 931 images et légendes explorées sur le web. Il comprend 14 870 entités et 1 330 types de relations, permettant des requêtes visualement contextuelles et des réponses plus précises en supportant les paramètres de requête^{conceptuels 16}.

VisualSem est un autre graphe de connaissances multilingue complet qui intègre des informations visuelles et textuelles. Elle comprend 89 896 entités, plus de 1,3 million de glosses et 938 100 images. Conçu pour des applications telles que l’augmentation de données et la mise à la terre, VisualSem améliore l’interprétation sémantique entre les langages et peut être intégré sans effort dans divers pipelines^{de traitement 1}.

Plusieurs modèles MMKG sont également développés pour supporter des tâches telles que la prédiction des liens, la classification des triplets et la correspondance d’entités. Ces modèles abordent les limites des graphes monomodaux, en particulier leur incapacité à saisir la complexité de l’information^intermodale 16,17,18.

La comparaison critique entre les modèles MMKG basés sur le langage et VISHAM-KG est fournie dans le Tableau 1. Il se concentre spécifiquement sur leur force et leurs limites dans le contexte de langues à faible valeur en ressources comme l’hindi, le tamoul ou le sanskrit. Ces méthodes supposent souvent l’accès à des corpus textuels de haute qualité, des annotations linguistiques fiables et des modèles pré-entraînés à grande échelle. Ces facteurs limitent leur applicabilité aux langages à faible niveau de ressources. En particulier, les pipelines dépendants de l’OCR sont fréquemment optimisés pour les écritures latines et présentent une précision réduite pour les écritures indiques, ce qui entraîne une extraction de texte bruyante ou incomplète. De plus, le prétraitement linguistique, le marquage des parties du discours et la reconnaissance d’entités nommées sont couramment entraînés sur les langues à forte richesse en ressources. Ils présentent des performances drastiquement dégradées lorsqu’ils sont appliqués à des langues morphologiquement riches et syntaxiquement flexibles comme l’hindi.

Modèle MMKG	Points forts	Limitations dans les environnements à faibles ressources
IMGpedia	Intègre les images avec DBpedia	Concentré uniquement sur le contenu anglais
	Prend en charge les requêtes de similarité visuelle	Aucun support pour les écritures non latines
		Contexte culturel limité pour les visuels régionaux
Richpedia	Combine des entités visuelles et textuelles de Wikipédia et Wikidata	Représentation inadéquate des connaissances indiques ou populaires
Richpedia	Requêtes au niveau d’aspect disponibles	Suppose un alignement de haute qualité, ce qui fait défaut dans les ensembles de données régionales
ImageGraph	KG relationnel avec images et légendes	Extraction d’entités et de relations adaptée aux corpus anglais
ImageGraph	Prend en charge les requêtes étendues basées sur des triplets	Échecs dans des environnements avec des sous-titres clairsemés ou des métadonnées manquantes
VisualSem	Prise en charge multilingue	Mauvaise représentation des langues asiatiques à faible ressource
VisualSem	Utile dans les pipelines sémantiques neuronaux	Aucun soutien pour le devanagari ni la sémantique visuelle culturellement ancrée
VISHAM-KG	KG relationnel avec images dans les langues indiques	Dépendant de la langue
VISHAM-KG	Pipelines sémantiques pour une syntaxe morphologiquement riche	Cela dépend des différentes balises POS selon les langues.

Tableau 1 : Comparaison critique des MMKG avec les limitations dans les langages à faible richesse.

Les modèles MMKG existants reposent sur des graphes de connaissances statiques, ne s’adaptant pas à des contextes dynamiques du monde réel où de nouveaux types d’entités et associations se développent en raison de leur entraînement à un seul ensemble de données. Cela rend crucial le développement de modèles dotés de capacités^{dynamiques 16}. Les limitations suivantes se retrouvent dans ce contexte : une utilisation incorrecte des données textuelles dans des activités visuelles telles que l’identification, l’extraction et l’annotation d’objets ; le développement de méthodes évolutives pour construire des graphes de connaissances multimodaux à partir de sources hétérogènes ; et l’intégration d’informations contextuelles dans des graphes de connaissances multimodaux pour une meilleure compréhension et interprétation.

Dans ces conditions, VISHAM-KG se distingue des approches antérieures par l’utilisation de techniques avancées d’extraction visuelle pour définir les nœuds et les relations directement à partir de documents visuels. Il combine des étapes standard de traitement du texte telles que la tokenisation, la suppression des stop-mots et le tagage des parties du discours avec des techniques de graphes sémantiques pour structurer les connaissances extraites. En fusionnant la vision par ordinateur et l’ontologie, le système offre plusieurs avantages¹⁹ : une adaptabilité accrue, permettant à la base de connaissances d’évoluer selon les besoins spécifiques de l’application ; une représentation sémantique améliorée qui soutient l’interopérabilité entre les systèmes ; et une meilleure inférence sémantique et une meilleure récupération, permettant l’amélioration des bases de connaissances au niveau contextuel.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Aucune approbation éthique n’est requise pour ce protocole, car il utilise exclusivement des données visuelles et textuelles non humaines, non sensibles et accessibles au public. Le tableau 2 présente tous les outils et techniques ainsi que leurs dépendances. Tout le code source, fichiers de configuration et scripts nécessaires pour reproduire le pipeline de construction multimodale de graphes de connaissances sont disponibles dans un dépôt public GitHub (preeti017phdit22-wq/VISHAM_KG.). Le dépôt comprend des instructions d’installation et des spécifications de dépendance pour faciliter la reproductibilité.

Module	Modèle / Outil	Version	Cadre	Objectif
OCR	EasyOCR	v1.7.1	PyTorch	Extraction de texte hindi
POS + Analyse des dépendances	Strophe (salut)	v1.6.1	PyTorch	Analyse linguistique
NER	BiLSTM-CRF	Entraîné sur mesure	PyTorch	Reconnaissance des entités en hindi
Détection d’objets	YOLOv8	v8.0.208	Ultralytiques	Extraction d’entités visuelles
Incorporations de texte	XLM-R Base	2023-05	Visage d’Étreinte	Encodage textuel multilingue
Immersions visuelles	CLIP-ViT-B/32	2022-09	OpenAI	Codage d’image
Stockage de graphes	Neo4j	v5.13	Neo4j	Construction KG
Similarité	Similarité cosinus	–	NumPy	Alignement intermodal

Tableau 2 : Outils et techniques utilisés à chaque étape de la construction du VISHAM-KG.

1. Construction de graphes de connaissances

Préparation des données
1. Rassemblez 10 documents d’histoires pour enfants provenant des sources^{mentionnées 11,13}. Confirmez la disponibilité des documents en images pour chaque document.
2. Stockez chaque document sous forme d’unité structurée contenant des fichiers image (PNG ou JPG) et le texte en hindi correspondant.
3. Attribuez un identifiant unique de document reliant chaque image au texte associé.
Extraction de texte et prétraitement
1. Extraire du texte à partir d’images numérisées à l’aide d’EasyOCR (configuré pour l’écriture devanagari) afin d’extraire du texte hindi à partir d’images de documents (Figure 2).
2. Normaliser le texte extrait en supprimant les artefacts OCR et en supprimant les symboles superflus.
3. Effectuez la segmentation des phrases et la tokenisation. Tokenisez le texte en mots. Supprimez les mots d’arrêt à l’aide d’une liste prédéfinie de mots d’arrêt en hindi.
4. Effectuer le tagage des parties du discours et l’analyse des dépendances à l’aide d’un NLP compatible hindi avec Stanza (Hi).
5. Identifier les entités nommées à l’aide d’un modèle BiLSTM-CRF.
6. Extraire des triplets sujet-relation-objet à l’aide de modèles de règles de dépendance. Générez un arbre de dépendances avec des relations grammaticales étiquetées pour construire des triplets significatifs (Figure 3).

Figure 2 : Extraction d’un triplet simple sujet-verbe-objet à partir d’un texte hindi en utilisant des relations verbes uniquement. Le diagramme décrit l’extraction d’un simple triplet sujet-verbe-objet à partir d’un texte hindi en utilisant des relations verbes uniquement. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 3 : Relation de préposition verbale étendue. La figure illustre la relation étendue de la préposition verbale pour identifier la formation des triplets. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Extraction d’entités visuelles
1. Chargez chaque image et appliquez la détection d’objets en utilisant le modèle de détection d’objets YOLOv8 (Figure 4).
2. Extraire les boîtes englobantes, les étiquettes de classe et les scores de confiance des objets identifiés dans l’image (Figure 5).
3. Filtrez les objets détectés en conservant les détections avec des scores de confiance ≥ 0,50. Enregistrer les objets filtrés comme entités visuelles (OPTIONNEL). Sauvegardez les entités visuelles avec des coordonnées de boîte englobante et générez une liste de ces entités.

Figure 4 : Détection d’objets. La figure illustre la détection d’objets à l’aide de YOLOv8. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 5 : Extraction visuelle des caractéristiques et détection et identification d’objets. La figure illustre l’extraction visuelle des caractéristiques à l’aide de couches convolutionnelles et YOLOv8, suivie d’un affinement et d’un alignement des régions basés sur les scores de similarité. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Intégration et alignement des entités
1. Générez des embeddings contextuels pour des entités textuelles en utilisant les embeddings XLM-R. Générez des embeddings visuels pour les objets détectés à l’aide des embeddings CLIP-ViT (Figure 6).
2. Projeter le texte et les embeddings visuels dans un espace latent partagé et les normaliser à une unité de longueur.
3. Calculez la similarité cosinus entre chaque paire d’inclusion textuelle et visuelle. Alignez les entités lorsque la similarité ≥ un seuil τ prédéfini (par défaut τ = 0,65). Produire une liste de paires d’entités texte-image alignées.

Figure 6 : Détection visuelle d’objets et fusion des étiquettes POS. La figure illustre la détection visuelle d’objets et la fusion des balises POS pour l’extraction de triplets de graphes de connaissance. YOLO et CIFAR-100 identifient des objets démontrant un alignement multimodal. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Extraction par triplets
1. Extraire des triplets textuels en utilisant des règles de dépendance qui cartographient les structures sujet-verbe-objet.
2. Dériver des relations visuelles en utilisant des règles de proximité spatiale et de co-occurrence.
3. Générez des triplets multimodaux en reliant des entités textuelles et visuelles alignées à l’aide d’étiquettes de relation. Validez les triplets pour la cohérence syntaxique et sémantique.
Construction de graphes de connaissance
1. Convertir les entités alignées en triplets compatibles RDF. Fusionner les triplets textuels et visuels en un graphe unifié.
2. Insérer des entités comme nœuds et des relations comme arêtes. Codez des liens multimodaux à l’aide de prédicats explicites. Stockez le graphe résultant dans Neo4j (OPTIONNEL). Un graphe de connaissances multimodal finalisé avec des triplets texte-image alignés est désormais généré.
  REMARQUE : Une approche systématique pour construire un graphe de connaissances multimodal à partir de documents visuels en hindi est présentée à la Figure 7.

Figure 7 : Pipeline pour la construction de graphes de connaissances multimodaux. Le diagramme de flux représente les pipelines pour VISHAM-KG. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Utilisez le pseudocode ci-dessous pour la construction de graphes de connaissances.
Entrée :
D : Ensemble de documents texte-image en hindi
τ : Seuil de similarité pour l’alignement
Pré-traiter chaque paire de documents (T,I)∈D
Si T est balayé, extraire le texte T’en utilisant la tokenisation OCRPerform, la lemmatisation et la suppression des mots stop
Appliquez le marquage POS et l’analyse des dépendances avec Stanza
Détecter les objets dans I avec YOLOv8
Extraire les encadrés, les étiquettes L_i et les scores de confiance > 0,5
Générer l’immersion
Identifier les entités nommées E_Tde T’à l’aide de BiLSTM-CRF
Extraire les entités visuelles E_Vde L_i
Calculer les embeddings textuels E_T avec XLM-R.
Calculer les embeddings visuels E_V avec CLIP-ViT
Alignement des entités avec extraction de triplets
Pour chaque paire (e_t,e _v) dans_{E T} x E_V :
Calculer la similarité du cosinus S = cos(_{E V,E} _T)
Seuil de fixation τ=0,6
Si s≥τ, on ajoute un triplet (e_t, has_image,_{e v}) à l’ensemble F.
Extraire (h,r,t) triplets de T’en utilisant des règles de dépendance.
Dériver des relations visuelles à partir de cooccurrences spatiales ou de légendes.
Projetez E_t et_{E v} dans un espace latent partagé.
Notez des triplés et conservez ceux au-dessus du seuil de confiance.
Ajouter des triplets et entités validés au graphe G.
Sortie : KG final en Neo4j.

2. Procédure d’évaluation

REMARQUE : Les histoires pour enfants en hindi sont choisies pour l’évaluation du cadre VISHAM-KG car elles fournissent des récits contrôlés et visuellement ancrés avec des entités et des relations claires, permettant une validation fiable de l’alignement multimodal, de la construction de graphes et de l’inférence avant le déploiement à l’échelle du domaine. Tous les paramètres d’hyperparamètres sont donnés dans le tableau 3.

Module	Hyperparamètre	Dimensions
OCR	Seuil de confiance	0.5
Extraction d’entités	Dimension d’immersion	300
Détection d’objets	Seuil de confiance	0.5
	Taille de l’image d’entrée	640 × 640
Intégration de texte	Modèle de langage	XLM-R
	Dimension d’immersion	768
Intégration d’images	Modèle de vision	CLIP-ViT-B/32
	Dimension d’immersion	768
Alignement	Métrique de similarité	Similarité cosinus
Alignement texte-image	Seuil de similarité cosinus (τ)	0.6
Prédiction du lien	Dimension d’immersion	100
	Époques d’entraînement	50
	Échantillonnage négatif	Uniforme
Évaluation	Séparation train-essai	80 / 20

Tableau 3 : Réglage des hyperparamètres pour le cadre.

Composant	Comte
Images de documents	10
Entités textuelles	186
Entités visuelles	97
Relations dérivées du texte	105
Relations dérivées visuellement	41
Triolets textuels et visuels	312

Tableau 4 : Graphe de connaissances et statistiques des triplets.

Composition et partitionnement des ensembles de données
1. L’ensemble de données d’évaluation comprend 10 histoires d’enfants, chacune accompagnée d’images illustratives. Exécutez le processus d’extraction d’entités mentionné aux étapes 1.2-1.4. Les résultats sont représentés dans le tableau 4.
2. Construisons deux variantes de graphes : un graphe de connaissances textuel uniquement (T-KG) utilisant uniquement des triplets textuels et un autre graphe de connaissances multimodal (MM-KG) utilisant des triplets textuels et visuels fusionnés.
3. Pour garantir une évaluation contrôlée, pour les deux graphes, utilisez des répartitions de données identiques.
4. Partition aléatoire des triplets extraits à 80:20, soit 80 % pour la construction de graphes (ensemble d’entraînement) et 20 % pour l’évaluation (ensemble test). Appliquez cette répartition de manière cohérente à la fois au KG textuel et au MMKG pour garantir une comparaison équitable.
Indicateurs de référence et d’évaluation
1. Le KG textuel sert de base. Le cadre proposé, VISHAM KG, représente la méthode proposée. Pour les deux graphes, utilisez une ontologie identique avec identifiants d’entité et requêtes d’évaluation. La seule différence entre les deux graphes est l’inclusion d’entités visuelles dans VISHAM-KG.
Métriques d’évaluation et prédiction des liens
1. Utilisez les métriques standard de prédiction des liens²⁰ : Rang réciproque moyen (MRR), Hits@1, Hits@3, Hits@10. Hit@K, définie comme la proportion de cas où l’entité correcte apparaît dans les rangs N supérieurs.
2. Pour chaque triplet de test (tête, relation, queue), masquez soit l’entité tête, soit l’entité de queue. Classez toutes les entités candidates selon la similarité cosinus dans l’espace d’inclusion partagé (Tableau 5).

Entité textuelle	Entité visuelle	Similarité cosinus
शेर		0.78
लोमड़ी		0.82

Tableau 5 : Scores de similarité cosinus entre les incrustations de texte et d’images.

Générez des prédictions indépendamment pour les embeddings textuels uniquement et multimodaux (VISHAM-KG).
Calculez les résultats en utilisant le rang réciproque moyen (MRR), comme la moyenne des rangs réciproques de l’entité correcte sur toutes les^{requêtes 21}. En utilisant le tableau 6, exprimez tous les résultats au format décimal pour assurer la cohérence entre les expériences²².

Modèle	MRR	Hits@1	Hits@3	Hits@10
TransE	0.42	0.21	0.48	0.72
ComplEx	0.47	0.26	0.52	0.74
RotatE	0.51	0.31	0.58	0.74
VISHAM-KG (Textuel)	0.49	0.36	0.62	0.76

Tableau 6 : Performance de prédiction des liens sur les triplets textuels uniquement.

Utilisez ces métriques pour valider la puissance prédictive du graphe de connaissances multimodal afin de récupérer les maillons manquants, comme montré dans le tableau 7.

Modèle	MRR	Hits@1	Hits@3	Hits@10
IKRL	0.46	0.34	0.63	0.72
VisualBERT	0.52	0.35	0.61	0.72
ViLBERT	0.54	0.38	0.64	0.75
VISHAM-KG	0.57	0.41	0.66	0.79

Tableau 7 : Performance sur les tâches de prédiction de triplets intermodals.

Utilisez le pseudocode ci-dessous pour l’évaluation.
Pour chaque variante du graphe de connaissance G∈{_{G T,G} _MM}:
Partitionnement par triplets
Extraire tous les triplés T_{de G} .
Partitionner aléatoirement_{T en}ensemble d’entraînement (80 %) et_{test set T} (20 %).
Construisons le_train G du graphe en utilisant des triplets dans la_chaîne T.
Score de similarité et intégration
Pour chaque_test triplet (h,r,t)∈T :
Tête de masque ou entité de queue pour former la requête (h,r, ?) ou ( ?,r,t).
Générez l’ensemble d’entités candidate C à partir des entités dans_{G train}.
Calculez l’inclusion du score de similarité S=cos(e_query,e _c) pour chaque e_c∈ C.
Classez toutes les entités candidates en fonction du score de similarité décroissant.
Calcul métrique
Calculez le rang de l’entité correcte pour chaque requête.
Calculez le rang réciproque moyen (MRR) sur toutes les requêtes de test.
Calculez Hits@1, Hits@3 et Hits@10.
Comparez les scores d’évaluation entre le KG G_T (texte unique) et le KG G MM multimodal.
Sortie : Fournir des résultats qualitatifs et quantitatifs directement attribuables à l’intégration multimodale
Similarité intermodale
1. Calculez les scores de similarité pour évaluer l’alignement entre les embeddings textuels et visuels. Normaliser à la fois les inclusions textuelles et visuales à une unité de longueur pour garantir la cohérence de l’échelle. Utilisez la similarité cosinus comme mesure^{principale 22}.
2. Pour chaque paire (e_t,_{e v}) d’inclusion d’entités textuelles et d’intégration d’entités visuelles, calculez le score^{de similarité 23}.
  Score(e_t,e _v) = λ ·_{sim text}(e_t,e _v) + (1-λ) ·_{sim visuel} (e_t,e _v).
  où :
  λ∈ [0,1] est le paramètre de pondération modale,
  Le _texte sim est la similarité cosinus entre les incrustations textuelles,
  Le_{sim visuel} est la similarité cosinus entre les embeddings visuels.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Le VISHAM-KG proposé est évalué par le calcul du score de similarité et des tâches de prédiction de liens couramment utilisées dans le jeu de données de référence de représentation des connaissances.

Installation expérimentale

Évaluer le graphe de connaissances multimodal construit à l’aide de deux tâches établies : (i) l’évaluation de la similarité intermodale et (ii) la prédiction des liens des graphes de connaissances. Effectuer toutes les évalua...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La performance du cadre VISHAM-KG repose principalement sur trois composantes clés : l’OCR pour le texte devanagari (étape 1.2), la détection visuelle des objets basée sur la confiance utilisant Clip-ViT (étape 1.3) et l’alignement intermodal basé sur l’intégration (étape 1.4). La précision de la CORE influence directement l’analyse linguistique en aval et l’extraction des entités. Les erreurs introduites à ce stade se propagent à l’identification des relations et réduisent la précision ...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs déclarent qu’il n’existe aucun conflit d’intérêts concernant la publication de cet article.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
BiLSTM-CRF et modèle Indic NER	Entraîné sur mesure	PyTorch	Reconnaissance d’entités nommées
CLIP-ViT-B/32	2022-09	OpenAI	Génération d’immersion visuelle
CPU	Intel i9	Intel	Calcul général
EasyOCR	v1.7.1	IA désabusée	Extraction de texte hindi à partir d’images
GPU	NVIDIA RTX 3090	NVIDIA	Accélération par inférence de modèle
Histoires pour enfants en hindi	10 étages	Jeu de données sélectionné	Corpus d’évaluation
Neo4j	v5.13	Neo4j Inc.	Stockage des graphes de connaissances
NumPy	v1.24	Communauté NumPy	Calculs numériques
Pandas	v2.0	Communauté Pandas	Gestion des données
Python	v3.10	Fondation Python Software	Implémentation du pipeline
PyTorch	v2.0	Méta IA	Cadre d’apprentissage profond
Stanza (modèle hindi)	v1.6.1	Stanford NLP	Marquage POS et analyse des dépendances
XLM-R (Base)	2023-05	Visage d’Étreinte	Génération d’intégration de texte
YOLOv8	v8.0.208	Ultralytiques	Détection visuelle d’objets

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023).
Ektefaie, Y., et al. Generalized multimodal models for life sciences. Nat Mach Intell. 5 (4), 340-350 (2023).
Exner, P., Nugues, P. Entity extraction: From unstructured text to DBpedia RDF triples. Proc CEUR Workshop. , 58-69 (2012).
Fan, T., Wang, H., Hodel, T. Multimodal knowledge graph construction of Chinese traditional operas and sentiment and genre recognition. J Cultural Heritage. 62, 32-44 (2023).
Fang, Q., Zhang, X., Hu, J., Wu, X., Xu, C. Contrastive multimodal knowledge graph representation learning. IEEE Trans Knowl Data Eng. 35 (9), 8983-8996 (2022).
Fang, Y., Kuan, K., Lin, J., Tan, C., Chandrasekhar, V. Object detection meets knowledge graphs. Proc IJCAI. , 1-8 (2017).
Fensel, D., et al. Introduction: What is a knowledge graph. , Semant WebSpringer. 1-10 (2020).
Ferrada, S., Bustos, B., Hogan, A. IMGpedia: A linked dataset with content-based analysis of Wikimedia images. , Semant WebSpringer. 84-93 (2017).
Gong, D., Wang, D. Z. Extracting visual knowledge from the web with multimodal learning. Proc IJCAI. , 1718-1724 (2017).
Hollink, L., Bedjeti, A., Van Harmelen, M., Elliott, D. A corpus of images and text in online news. Proc LREC. , 1377-1382 (2016).
Jain, P., Darbari, H., Bhavsar, V. C. Vishit: A visualizer for Hindi text. Proc IEEE Conf. , 886-890 (2014).
StoryWeaver: Free multilingual story platform for children. , Pratham Books. https://storyweaver.org.in/en (2025).
Zhu, B., et al. MMIEA: Multimodal interaction entity alignment model for knowledge graphs. Inf Fusion. 100, 101935(2023).
Wang, M., Wang, H., Qi, G., Zheng, Q. Richpedia: A large-scale, comprehensive multimodal knowledge graph. Big Data Res. 22, 100159(2020).
Liu, Y., et al. MMKG: Multimodal knowledge graphs. , Semant WebSpringer. 459-474 (2019).
Liang, W., Meo, P. D., Tang, Y., Zhu, J. A survey of multimodal knowledge graphs: Technologies and trends. ACM Comput Surv. 56 (11), 1-41 (2024).
Troussas, C., Krouska, A., Tselenti, P., Kardaras, D. K., Barbounaki, S. Enhancing personalized educational content recommendation through cosine similarity-based knowledge graphs and contextual signals. Information. 14 (9), 505(2023).
Vats, P., Sharma, N., Sharma, D. K. HKG: A novel approach for low resource Indic languages to automatic knowledge graph construction. ACM Trans Asian Low-Resour Lang Inf Process. , (2023).
Wang, D., et al. MM-transformer: A transformer-based knowledge graph link prediction model that fuses multimodal features. Symmetry. 16 (8), 961(2024).
Wang, Z., Liu, X., Liu, Z., Weng, Y. A link prediction method for multimodal knowledge graphs based on adaptive fusion and modality information enhancement. Neural Netw. 191, 107771(2025).
Huang, S., Cai, Y., Yuan, L., Wang, J. A knowledge-enhanced network for joint multimodal entity-relation extraction. Inf Process Manag. 62 (3), 104033(2025).
Wang, L., Cheng, H., Wang, R., Huang, X. Machining scheme selection of features based on process knowledge graph and improved cosine similarity matching. Machines. 13 (3), 1-20 (2025).
Zhu, J., et al. A novel cosine-derived probability distribution: Theory and data modeling with computer knowledge graph. Alex Eng J. 103, 1-11 (2024).
Li, Z., Tang, J., Mei, T. Deep collaborative embedding for social image understanding. IEEE Trans Pattern Anal Mach Intell. 41 (9), 2070-2083 (2018).
Qian, Y., Pan, L. Leveraging multimodal features for knowledge graph entity alignment based on dynamic self-attention networks. Expert Syst Appl. 228, 120363(2023).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Graphes de connaissances multimodaux basés sur l’analyse linguistique basée sur des règles et la vision par ordinateur

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles