$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Le Graphe de connaissances multimodal visual-sémantique aligné hindi (VISHAM-KG) est un cadre conçu pour construire des graphes de connaissances multimodaux (KG) cohérents à partir de documents visuels hindi en alignant systématiquement les entités textuelles visuelles. L’objectif de cette étude est d’intégrer l’analyse linguistique basée sur des règles avec la détection d’objets par vision par ordinateur, qui soutient la représentation sémantique structurée et le raisonnement fondé dans les langues indiques à faible capacité en ressources. L’algorithme proposé commence par la préparation de documents visuels en hindi en traitement du langage naturel (NLP), suivie de la reconnaissance optique des caractères (OCR) pour l’extraction d’écriture devanagari et le prétraitement linguistique, qui inclut divers processus tels que la tokenisation, la lemmatisation, le tagage des parties du discours et l’analyse des dépendances. Parallèlement, les entités visuelles sont extraites des images via la détection d’objets et filtrées à l’aide de seuils de confiance. Les entités textuelles et visuelles sont intégrées dans un espace sémantique partagé à l’aide du modèle transformateur multilingue XLM-R, ainsi que CLIP-ViT, et alignées à l’aide de seuils basés sur la similarité cosinus. Ces entités alignées sont combinées avec des relations de dépendance basées sur des règles pour générer des triplets multimodaux. Le protocole produit un graphe de connaissances multimodal structuré encodé en triplets sujet-relation-objet, avec un ancrage visuel explicite basé sur la base de connaissances indienne. Ce résultat permettra de soutenir l’interrogation intermodale, l’alignement d’entités et le raisonnement par graphe de connaissances pour les documents visuels en hindi, et fournira un cadre reproductible pour la construction multimodale des connaissances dans des contextes linguistiques à faible niveau de ressources.