Method Article

Multimodale kennisgrafieken gebaseerd op regelgebaseerde linguïstische analyse en computer vision

DOI:

10.3791/69803

April 3rd, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG is een multimodaal kader dat kennisgrafieken construeert uit Hindi visuele documenten door tekstuele en visuele entiteiten op één lijn te brengen. Het combineert regelgebaseerde taalkundige analyse met computer vision-technieken om subject-relatie-object-triplets te produceren in Indica-omgevingen met weinig hulpbronnen.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De Visual-Semantic Hindi-Aligned Multimodal Knowledge Graph (VISHAM-KG) is een framework dat is ontworpen om consistente multimodale kennisgrafieken (KG's) te construeren uit Hindi visuele documenten door visuele tekstentiteiten systematisch uit te lijnen. Het doel van deze studie is het integreren van regelgebaseerde linguïstische analyse met computervisie-gebaseerde objectdetectie, die de gestructureerde semantische representatie en onderbouwde redenering in Indicische talen met weinig middelen ondersteunt. Het voorgestelde algoritme begint met de voorbereiding van Natural Language Processing (NLP) Hindi visuele documenten, gevolgd door optische tekenherkenning (OCR) voor Devanagari-scriptextractie en linguïstische preprocessing, die verschillende processen omvat zoals tokenisatie, lemmatisering, woordsoort-tagging en afhankelijkheidsparsing. Parallel worden visuele entiteiten uit afbeeldingen gehaald met objectdetectie en gefilterd met betrouwbaarheidsdrempels. Tekstuele en visuele entiteiten worden ingebed in een gedeelde semantische ruimte met behulp van het meertalige transformermodel XLM-R, samen met CLIP-ViT, en uitgelijnd met behulp van op cosinusgelijkenis gebaseerde drempels. Deze uitgelijnde entiteiten worden gecombineerd met regelgebaseerde afhankelijkheidsrelaties om multimodale triplets te genereren. Het protocol produceert een gestructureerde multimodale kennisgrafiek gecodeerd als subject-relatie-object-triplets met expliciete visuele basis gebaseerd op de Indiase kennisbasis. Deze resulterende output ondersteunt cross-modale query, entiteitsuitlijning en knowledge graph reasoning voor Hindi visuele documenten en biedt een reproduceerbaar kader voor multimodale kennisconstructie in taalkundige omgevingen met weinig middelen.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Kennisgrafieken (KGs) zijn gestructureerde semantische grafische representaties waarin entiteiten als knooppunten worden gemodelleerd en relaties als randen. Het maakt efficiënte kennisopwinning en contextuele redenering mogelijk in diverse toepassingen zoals het beantwoorden van vragen, aanbevelingssystemen en informatie-extractie1. In het afgelopen decennium zijn KG-constructiemethodologieën aanzienlijk ontwikkeld. De meeste bestaande benaderingen zijn echter ontworpen voor bronrijke talen, die voornamelijk vertrouwen op grootschalige tekstcorpora2. Als gevolg hiervan blijven talen met....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voor dit protocol is geen ethische goedkeuring vereist, omdat het uitsluitend gebruikmaakt van openbaar beschikbaare, niet-menselijke, niet-gevoelige visuele en tekstuele gegevens. Tabel 2 geeft alle hulpmiddelen en technieken samen met hun afhankelijkheden. Alle broncode, configuratiebestanden en scripts die nodig zijn om de multimodale kennisgraafconstructiepijplijn te reproduceren, zijn beschikbaar in een openbare GitHub-repository (preeti017phdit22-wq/VISHAM_KG.). De repository bevat installatie-instructies en afhankelijkheidsspecificaties om reproduceerbaarheid te vergemakkelijken.

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De voorgestelde VISHAM-KG wordt geëvalueerd via similarity score-computation en linkvoorspellingstaken die vaak worden gebruikt in de knowledge representation benchmark dataset.

Experimentele opstelling

Evalueer de geconstrueerde multimodale kennisgrafiek met behulp van twee vastgestelde taken: (i) cross-modale gelijkenisbeoordeling en (ii) voorspelling van kennisgrafiekverbindingen. Voer alle evaluaties uitsluitend.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De prestaties van het VISHAM-KG-framework zijn voornamelijk gebaseerd op drie kritieke componenten: OCR voor Devanagari-tekst (stap 1.2), betrouwbaarheidsgebaseerde visuele objectdetectie met Clip-ViT (stap 1.3) en embedding-gebaseerde cross-modale uitlijning (stap 1.4). OCR-nauwkeurigheid beïnvloedt direct de downstream linguïstische parsing en entiteitsextractie. De fouten die in deze fase worden geïntroduceerd, verspreiden zich naar relatie-identificatie en verminderen de uitlijningsp.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteurs verklaren dat er geen belangenconflicten zijn met betrekking tot de publicatie van dit artikel.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
BiLSTM-CRF and Indic NER ModelCustom-trainedPyTorchNamed entity recognition
CLIP-ViT-B/322022-09OpenAIVisual embedding generation
CPUIntel i9IntelGeneral computation
EasyOCRv1.7.1Jaided AIHindi text extraction from images
GPUNVIDIA RTX 3090NVIDIAModel inference acceleration
Hindi Kids Stories10 storiesCurated datasetEvaluation corpus
Neo4jv5.13Neo4j Inc.Knowledge graph storage
NumPyv1.24NumPy CommunityNumerical computations
Pandasv2.0Pandas CommunityData handling
Pythonv3.10Python Software FoundationPipeline implementation
PyTorchv2.0Meta AIDeep learning framework
Stanza (Hindi Model)v1.6.1Stanford NLPPOS tagging and dependency parsing
XLM-R (Base)2023-05HuggingFaceText embedding generation
YOLOv8v8.0.208UltralyticsVisual object detection

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
  2. Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Multimodal Knowledge GraphsRule Based Linguistic AnalysisComputer VisionVisual Entity ExtractionHindi Visual DocumentsOptical Character RecognitionDependency ParsingEntity AlignmentMultilingual TransformerKnowledge Graph Reasoning

Related Articles