Method Article

Wielomodalne wykresy wiedzy oparte na analizie językowej opartej na regułach i widzeniu komputerowym

DOI:

10.3791/69803

April 3rd, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG to ramy multimodalne, które konstruują grafy wiedzy z dokumentów wizualnych w języku hindi poprzez dopasowywanie bytów tekstowych i wizualnych. Łączy analizę językową opartą na regułach z technikami widzenia komputerowego, tworząc trójki podmiot-relacja-obiekt w językach indyjskich o ograniczonych zasobach.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Visual-Semantic Hindi-Aligned Multimodal Knowledge Graph (VISHAM-KG) to ramy zaprojektowane do tworzenia spójnych multimodalnych grafów wiedzy (KG) z dokumentów wizualnych w języku hindi poprzez systematyczne wyrównywanie jednostek tekstu wizualnego. Celem tego badania jest integracja analizy językowej opartej na regułach z detekcją obiektów opartą na wizji komputerowej, która wspiera ustrukturyzowaną reprezentację semantyczną i ugruntowane rozumowanie w językach indyjskich o niskich zasobach. Proponowany algorytm rozpoczyna się przygotowaniem wizualnych dokumentów wizualnych w języku hindi (NLP), a następnie stosuje optyczne rozpoznawanie znaków (OCR) do ekstrakcji pisma devanagari i wstępnego przetwarzania językowego, które obejmuje różne procesy, takie jak tokenizacja, lemmatyzacja, tagowanie części mowy oraz parsowanie zależności. Równolegle obiekty wizualne są wyodrębniane z obrazów za pomocą wykrywania obiektów i filtrowane za pomocą progów ufności. Byty tekstowe i wizualne są osadzone w wspólnej przestrzeni semantycznej za pomocą wielojęzycznego modelu transformera XLM-R, wraz z CLIP-ViT, i wyrównane za pomocą progów opartych na podobieństwie kosinusowym. Te wyrównane byty są łączone z relacjami zależnościami opartymi na regułach, aby generować wielomodalne trójki. Protokół generuje ustrukturyzowany multimodalny graf wiedzy zakodowany jako trójaczki podmiot-relacja-obiekt z wyraźnym wizualnym podstawą opartą na indyjskiej bazie wiedzy. Uzyskany wynik będzie wspierał zapytania międzymodalne, wyrównywanie encji oraz rozumowanie na grafach wiedzy dla dokumentów wizualnych w języku hindi oraz zapewnił replikowalne ramy do wielomodalnej konstrukcji wiedzy w językach językowych o niskich zasobach.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Grafy wiedzy (KG) to ustrukturyzowane semantyczne reprezentacje graficzne, w których byty są modelowane jako węzły, a relacje jako krawędzie. Umożliwiają efektywne wyszukiwanie wiedzy i rozumowanie kontekstowe w różnych zastosowaniach, takich jak odpowiadanie na pytania, systemy rekomendacji czy ekstrakcja informacji1. W ciągu ostatniej dekady metodologie konstrukcji KG zostały znacząco rozwinięte. Jednak większość istniejących podejść jest zaprojektowana dla języków bogatych w zasoby, które opierają się głównie na dużych korpusach tekstowych2. W rezultacie języki o niskich zasobach pozostają niedostatecznie reprezentowa....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nie jest wymagana etyczna zgoda dla tego protokołu, ponieważ wykorzystuje wyłącznie publicznie dostępne, nieludzkie, niewrażliwe dane wizualne i tekstowe. Tabela 2 zawiera wszystkie narzędzia i techniki wraz z ich zależnościami. Cały kod źródłowy, pliki konfiguracyjne i skrypty potrzebne do odtworzenia wielomodalnego pipeline'u budowy grafów wiedzy są dostępne w publicznym repozytorium GitHub (preeti017phdit22-wq/VISHAM_KG.). Repozytorium zawiera instrukcje instalacji oraz specyfikacje zależności ułatwiające powtarzalność.

Modu....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Proponowany VISHAM-KG jest oceniany na podstawie obliczeń wyniku podobieństwa oraz zadań predykcji powiązań, które są powszechnie stosowane w benchmarku reprezentacji wiedzy.

Układ eksperymentalny

Ocenić skonstruowany multimodalny graf wiedzy przy użyciu dwóch ustalonych zadań: (i) oceny podobieństwa międzymodalnego oraz (ii) przewidywania łącza w grafie wiedzy. Wszystkie oceny przeprowadź wyłącznie na finalnym wyjściu grafu wygenerowanym na końcu p.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wydajność frameworka VISHAM-KG opiera się głównie na trzech kluczowych komponentach: OCR dla tekstu w języku Devanagari (krok 1.2), wykrywaniu obiektów wizualnych opartych na zaufaniu za pomocą Clip-ViT (krok 1.3) oraz osadzaniu opartym na wyrównaniu międzymodalnym (krok 1.4). Dokładność OCR bezpośrednio wpływa na dalsze analizowanie językowe i ekstrakcję encji. Błędy wprowadzone na tym etapie propagują się w identyfikacji relacji i zmniejszają precyzję wyrównania. Efekt ten jest łagodzony poprzez specyficzną dla hindi n.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy deklarują, że nie ma konfliktów interesów dotyczących publikacji tego artykułu.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
BiLSTM-CRF i indyjski model NERSzkolony na zamówieniePyTorchRozpoznawanie nazwanych podmiotów
CLIP-ViT-B/322022-09OpenAIGenerowanie wizualnego osadzania
CPUIntel i9IntelObliczenia ogólne
EasyOCRv1.7.1Zamknięta AIEkstrakcja tekstu hindi z obrazów
GPUNVIDIA RTX 3090NVIDIAPrzyspieszenie wnioskowania modelu
Historie o hinduskich dzieciach10 opowieściKuratorowany zbiór danychKorpus ewaluacyjny
Neo4jv5.13Neo4j Inc.Przechowywanie grafów wiedzy
NumPyv1.24Społeczność NumPyObliczenia numeryczne
Pandyv2.0Społeczność PandasObsługa danych
Pythonv3.10Python Software FoundationImplementacja potoku
PyTorchv2.0Meta AIRamy uczenia głębokiego
Strofa (model hindi)v1.6.1Stanford NLPTagowanie POS i parsowanie zależności
XLM-R (Baza)2023-05HuggingFaceGenerowanie osadzenia tekstu
YOLOv8v8.0.208UltralitykiWizualne wykrywanie obiektów

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
  2. Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Multimodal Knowledge GraphsRule Based Linguistic AnalysisComputer VisionVisual Entity ExtractionHindi Visual DocumentsOptical Character RecognitionDependency ParsingEntity AlignmentMultilingual TransformerKnowledge Graph Reasoning

Related Articles