$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
De Visual-Semantic Hindi-Aligned Multimodal Knowledge Graph (VISHAM-KG) is een framework dat is ontworpen om consistente multimodale kennisgrafieken (KG's) te construeren uit Hindi visuele documenten door visuele tekstentiteiten systematisch uit te lijnen. Het doel van deze studie is het integreren van regelgebaseerde linguïstische analyse met computervisie-gebaseerde objectdetectie, die de gestructureerde semantische representatie en onderbouwde redenering in Indicische talen met weinig middelen ondersteunt. Het voorgestelde algoritme begint met de voorbereiding van Natural Language Processing (NLP) Hindi visuele documenten, gevolgd door optische tekenherkenning (OCR) voor Devanagari-scriptextractie en linguïstische preprocessing, die verschillende processen omvat zoals tokenisatie, lemmatisering, woordsoort-tagging en afhankelijkheidsparsing. Parallel worden visuele entiteiten uit afbeeldingen gehaald met objectdetectie en gefilterd met betrouwbaarheidsdrempels. Tekstuele en visuele entiteiten worden ingebed in een gedeelde semantische ruimte met behulp van het meertalige transformermodel XLM-R, samen met CLIP-ViT, en uitgelijnd met behulp van op cosinusgelijkenis gebaseerde drempels. Deze uitgelijnde entiteiten worden gecombineerd met regelgebaseerde afhankelijkheidsrelaties om multimodale triplets te genereren. Het protocol produceert een gestructureerde multimodale kennisgrafiek gecodeerd als subject-relatie-object-triplets met expliciete visuele basis gebaseerd op de Indiase kennisbasis. Deze resulterende output ondersteunt cross-modale query, entiteitsuitlijning en knowledge graph reasoning voor Hindi visuele documenten en biedt een reproduceerbaar kader voor multimodale kennisconstructie in taalkundige omgevingen met weinig middelen.