Multimodale kennisgrafieken gebaseerd op regelgebaseerde linguïstische analyse en computer vision

Preeti Vats; Nonita Sharma; Deepak Kumar Sharma; Alongbar Wary

doi:10.3791/69803

Method Article

Multimodale kennisgrafieken gebaseerd op regelgebaseerde linguïstische analyse en computer vision

DOI:

10.3791/69803

⸱

April 3rd, 2026

Preeti Vats¹ , Nonita Sharma¹ , Deepak Kumar Sharma¹ , Alongbar Wary¹

¹Indira Gandhi Delhi Technical University for Women

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG is een multimodaal kader dat kennisgrafieken construeert uit Hindi visuele documenten door tekstuele en visuele entiteiten op één lijn te brengen. Het combineert regelgebaseerde taalkundige analyse met computer vision-technieken om subject-relatie-object-triplets te produceren in Indica-omgevingen met weinig hulpbronnen.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De Visual-Semantic Hindi-Aligned Multimodal Knowledge Graph (VISHAM-KG) is een framework dat is ontworpen om consistente multimodale kennisgrafieken (KG's) te construeren uit Hindi visuele documenten door visuele tekstentiteiten systematisch uit te lijnen. Het doel van deze studie is het integreren van regelgebaseerde linguïstische analyse met computervisie-gebaseerde objectdetectie, die de gestructureerde semantische representatie en onderbouwde redenering in Indicische talen met weinig middelen ondersteunt. Het voorgestelde algoritme begint met de voorbereiding van Natural Language Processing (NLP) Hindi visuele documenten, gevolgd door optische tekenherkenning (OCR) voor Devanagari-scriptextractie en linguïstische preprocessing, die verschillende processen omvat zoals tokenisatie, lemmatisering, woordsoort-tagging en afhankelijkheidsparsing. Parallel worden visuele entiteiten uit afbeeldingen gehaald met objectdetectie en gefilterd met betrouwbaarheidsdrempels. Tekstuele en visuele entiteiten worden ingebed in een gedeelde semantische ruimte met behulp van het meertalige transformermodel XLM-R, samen met CLIP-ViT, en uitgelijnd met behulp van op cosinusgelijkenis gebaseerde drempels. Deze uitgelijnde entiteiten worden gecombineerd met regelgebaseerde afhankelijkheidsrelaties om multimodale triplets te genereren. Het protocol produceert een gestructureerde multimodale kennisgrafiek gecodeerd als subject-relatie-object-triplets met expliciete visuele basis gebaseerd op de Indiase kennisbasis. Deze resulterende output ondersteunt cross-modale query, entiteitsuitlijning en knowledge graph reasoning voor Hindi visuele documenten en biedt een reproduceerbaar kader voor multimodale kennisconstructie in taalkundige omgevingen met weinig middelen.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Kennisgrafieken (KGs) zijn gestructureerde semantische grafische representaties waarin entiteiten als knooppunten worden gemodelleerd en relaties als randen. Het maakt efficiënte kennisopwinning en contextuele redenering mogelijk in diverse toepassingen zoals het beantwoorden van vragen, aanbevelingssystemen en informatie-extractie¹. In het afgelopen decennium zijn KG-constructiemethodologieën aanzienlijk ontwikkeld. De meeste bestaande benaderingen zijn echter ontworpen voor bronrijke talen, die voornamelijk vertrouwen op grootschalige tekstcorpora². Als gevolg hiervan blijven talen met....

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Voor dit protocol is geen ethische goedkeuring vereist, omdat het uitsluitend gebruikmaakt van openbaar beschikbaare, niet-menselijke, niet-gevoelige visuele en tekstuele gegevens. Tabel 2 geeft alle hulpmiddelen en technieken samen met hun afhankelijkheden. Alle broncode, configuratiebestanden en scripts die nodig zijn om de multimodale kennisgraafconstructiepijplijn te reproduceren, zijn beschikbaar in een openbare GitHub-repository (preeti017phdit22-wq/VISHAM_KG.). De repository bevat installatie-instructies en afhankelijkheidsspecificaties om reproduceerbaarheid te vergemakkelijken.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De voorgestelde VISHAM-KG wordt geëvalueerd via similarity score-computation en linkvoorspellingstaken die vaak worden gebruikt in de knowledge representation benchmark dataset.

Experimentele opstelling

Evalueer de geconstrueerde multimodale kennisgrafiek met behulp van twee vastgestelde taken: (i) cross-modale gelijkenisbeoordeling en (ii) voorspelling van kennisgrafiekverbindingen. Voer alle evaluaties uitsluitend.......

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De prestaties van het VISHAM-KG-framework zijn voornamelijk gebaseerd op drie kritieke componenten: OCR voor Devanagari-tekst (stap 1.2), betrouwbaarheidsgebaseerde visuele objectdetectie met Clip-ViT (stap 1.3) en embedding-gebaseerde cross-modale uitlijning (stap 1.4). OCR-nauwkeurigheid beïnvloedt direct de downstream linguïstische parsing en entiteitsextractie. De fouten die in deze fase worden geïntroduceerd, verspreiden zich naar relatie-identificatie en verminderen de uitlijningsp.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteurs verklaren dat er geen belangenconflicten zijn met betrekking tot de publicatie van dit artikel.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
BiLSTM-CRF en Indic NER Model	Op maat getraind	PyTorch	Naamherkenning
CLIP-ViT-B/32	2022-09	OpenAI	Generatie van visuele inbedding
CPU	Intel i9	Intel	Algemene berekening
EasyOCR	v1.7.1	Jaided AI	Extractie van Hindi-tekst uit afbeeldingen
GPU	NVIDIA RTX 3090	NVIDIA	Versnelling van modelinferensie
Hindi Kids Stories	10 verhalen	Gekeurde dataset	Evaluatiecorpus
Neo4j	v5.13	Neo4j Inc.	Kennisgraafopslag
NumPy	v1.24	NumPy Community	Numerieke berekeningen
Pandas	v2.0	Pandas Community	Gegevensbehandeling
Python	v3.10	Python Software Foundation	Pijplijnimplementatie
PyTorch	v2.0	Meta AI	Deep learning-framework
Stanza (Hindi Model)	v1.6.1	Stanford NLP	POS-tagging en afhankelijkheidsanalyse
XLM-R (Basis)	2023-05	HuggingFace	Generatie van tekstinbedding
YOLOv8	v8.0.208	Ultralytics	Detectie van visuele objecten

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Multimodale kennisgrafieken gebaseerd op regelgebaseerde linguïstische analyse en computer vision

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles