Wielomodalne wykresy wiedzy oparte na analizie językowej opartej na regułach i widzeniu komputerowym

Preeti Vats; Nonita Sharma; Deepak Kumar Sharma; Alongbar Wary

doi:10.3791/69803

Method Article

Wielomodalne wykresy wiedzy oparte na analizie językowej opartej na regułach i widzeniu komputerowym

DOI:

10.3791/69803

⸱

April 3rd, 2026

Preeti Vats¹ , Nonita Sharma¹ , Deepak Kumar Sharma¹ , Alongbar Wary¹

¹Indira Gandhi Delhi Technical University for Women

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG to ramy multimodalne, które konstruują grafy wiedzy z dokumentów wizualnych w języku hindi poprzez dopasowywanie bytów tekstowych i wizualnych. Łączy analizę językową opartą na regułach z technikami widzenia komputerowego, tworząc trójki podmiot-relacja-obiekt w językach indyjskich o ograniczonych zasobach.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Visual-Semantic Hindi-Aligned Multimodal Knowledge Graph (VISHAM-KG) to ramy zaprojektowane do tworzenia spójnych multimodalnych grafów wiedzy (KG) z dokumentów wizualnych w języku hindi poprzez systematyczne wyrównywanie jednostek tekstu wizualnego. Celem tego badania jest integracja analizy językowej opartej na regułach z detekcją obiektów opartą na wizji komputerowej, która wspiera ustrukturyzowaną reprezentację semantyczną i ugruntowane rozumowanie w językach indyjskich o niskich zasobach. Proponowany algorytm rozpoczyna się przygotowaniem wizualnych dokumentów wizualnych w języku hindi (NLP), a następnie stosuje optyczne rozpoznawanie znaków (OCR) do ekstrakcji pisma devanagari i wstępnego przetwarzania językowego, które obejmuje różne procesy, takie jak tokenizacja, lemmatyzacja, tagowanie części mowy oraz parsowanie zależności. Równolegle obiekty wizualne są wyodrębniane z obrazów za pomocą wykrywania obiektów i filtrowane za pomocą progów ufności. Byty tekstowe i wizualne są osadzone w wspólnej przestrzeni semantycznej za pomocą wielojęzycznego modelu transformera XLM-R, wraz z CLIP-ViT, i wyrównane za pomocą progów opartych na podobieństwie kosinusowym. Te wyrównane byty są łączone z relacjami zależnościami opartymi na regułach, aby generować wielomodalne trójki. Protokół generuje ustrukturyzowany multimodalny graf wiedzy zakodowany jako trójaczki podmiot-relacja-obiekt z wyraźnym wizualnym podstawą opartą na indyjskiej bazie wiedzy. Uzyskany wynik będzie wspierał zapytania międzymodalne, wyrównywanie encji oraz rozumowanie na grafach wiedzy dla dokumentów wizualnych w języku hindi oraz zapewnił replikowalne ramy do wielomodalnej konstrukcji wiedzy w językach językowych o niskich zasobach.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Grafy wiedzy (KG) to ustrukturyzowane semantyczne reprezentacje graficzne, w których byty są modelowane jako węzły, a relacje jako krawędzie. Umożliwiają efektywne wyszukiwanie wiedzy i rozumowanie kontekstowe w różnych zastosowaniach, takich jak odpowiadanie na pytania, systemy rekomendacji czy ekstrakcja informacji¹. W ciągu ostatniej dekady metodologie konstrukcji KG zostały znacząco rozwinięte. Jednak większość istniejących podejść jest zaprojektowana dla języków bogatych w zasoby, które opierają się głównie na dużych korpusach tekstowych². W rezultacie języki o niskich zasobach pozostają niedostatecznie reprezentowane, ograniczając zastosowanie technologii opartych na KG w kulturowo i językowo zróżnicowanych środowiskach³. Równolegle rosnący odsetek dokumentów rzeczywistych – szczególnie w dziedzinach edukacyjnych, kulturowych i dziedzictwa, zawiera bogate informacje wizualne, które są niewystarczająco uchwycone metodami budowy grafów skoncentrowanych na tekście⁴.

Multimodalne grafy wiedzy (MMKG) rozszerzają konwencjonalne KG, integrując modalności nietekstowe, takie jak obrazy, audio czy wideo, umożliwiając ugruntowaną reprezentację semantyczną⁵. Wcześniejsze frameworki MMKG, w tym IMGpedia, Richpedia i ImageGraph, pokazują wartość łączenia informacji wizualnych z bytami tekstowymi dla lepszego zapytań semantycznych i rozumowania ^6,7,8. Pomimo tych postępów, istniejące metody są w dużej mierze skoncentrowane na języku angielskim, opierają się na wyselekcjonowanych metadanych lub statycznych zbiorach danych i oferują ograniczone wskazówki proceduralne dla konstruowania MMKG bezpośrednio z nieustrukturyzowanych dokumentów wizualnych. Co więcej, te ramy nie rozwiązują wyraźnie wyzwań związanych z językami o ograniczonych zasobach, takich jak specyficzne dla skryptów błędy OCR w optycznym rozpoznawaniu znaków, zmienność morfologiczna oraz rzadko opatrzone adnotacjami ^9,10^.

Celem tego frameworka jest wdrożenie metodologii krok po kroku do budowy multimodalnego grafu wiedzy z dokumentów wizualnych w języku hindi poprzez systematyczne wyrównanie bytów tekstowych i wizualnych. Proponowany framework, Visual-Semantic Hindi-Aligned Multimodal Knowledge Graph (VISHAM-KG), integruje analizę językową opartą na regułach z komputerowym widzeniem oparty na ekstrakcji obiektów, umożliwiając dynamiczną konstrukcję grafów dokumentów wizualnych. W przeciwieństwie do istniejących podejść MMKG, VISHAM-KG bezpośrednio wyodrębnia entity i relacje z surowego tekstu i obrazów w języku hindi, stosuje reguły gramatyczne oparte na zależności do identyfikacji relacji oraz wykonuje wyrównanie między jednostkami przy użyciu progów podobności opartych na osadzaniu, zamiast polegać na^{zewnętrznych 11,12}.

VISHAM-KG jest przeznaczony dla ilustrowanych dokumentów, w których treści tekstowe i wizualne są semantycznie powiązane, takich jak opowieści^{dla dzieci 13}, materiały edukacyjne, gazeta¹¹ oraz narracje o kulturowym podstawie. Podczas realizacji wspomnianego frameworka napotkano pewne ograniczenia, takie jak zależność od optycznego rozpoznawania znaków, zasięgu wykrywania obiektów oraz dostępności słownictwa specyficznego dla danej dziedziny. Dzięki wyraźnej dokumentacji każdego kroku proceduralnego, VISHAM-KG zapewnia powtarzalny protokół do budowy multimodalnych grafów wiedzy w kontekstach językowych o niskich zasobach, wspierając jednocześnie ugruntowane rozumowanie semantyczne i analizę międzymodalną.

VISHAM-KG różni się od istniejących podejść MMKG bezpośrednim wyodrębnieniem encji i relacji z nieustrukturyzowanego tekstu i obrazów w języku hindi; stosowaniem parsowania zależności opartego na regułach do ekstrakcji relacji; oraz wyrównywaniem encji tekstowych i wizualnych poprzez progi podobieństwa oparte na osadzeniu, zamiast metadanych zgodnych z ^8,10 (Rysunek 1).

Rysunek 1: Ramy end-to-end. Rysunek ilustruje ramy end-to-end dla multimodalnej wiedzy Graf VISHAM-KG. Prosimy kliknąć tutaj, aby zobaczyć większą wersję tego rysunku.

Protokół ten jest stosowany do ilustrowanych dokumentów z dopasowaną treścią tekstowo-obrazową, takich jak materiały edukacyjne i narracje kulturowe. W tym systemie YOLOv8 został wybrany ze względu na efektywność i odporność w wykrywaniu obiektów w dokumentach wizualnych. XLM-R został wybrany ze względu na silne reprezentacje międzyjęzykowe, które doskonale nadają się do niskozasobowego przetwarzania tekstu w języku hindi, a CLIP-ViT ze względu na udowodnioną zdolność do nauki wspólnych przestrzeni osadzania tekstu wizualnego, co umożliwia skuteczne dopasowanie między modami. Jednak jest ograniczony przez dokładność OCR, pokrycie detekcją obiektów oraz specyficzne dla danej dziedziny ograniczenia słownictwa.

Powiązane dzieła

Tradycyjny graf wiedzy G=(E,R,F) składa się z jednostek E, relacji R oraz faktycznych trójek F, gdzie każda trójka ma postać (h,r,t)⁸. Rozszerzając to, Multi-Modal Knowledge Graph (MMKG) zawiera E podmioty powiązane z modalnościami nietekstowymi, takimi jak obrazy, dźwięk i wideo¹⁴.

W MMKG stosuje się dwie główne strategie reprezentowania danych wizualnych:
Jako atrybuty przypisane do bytów tekstowych
Jako byty wizualne połączone przez konkretną relację adnotowaną

Jednym z godnych uwagi badań jest IMGpedia, która wzbogaca dane obrazowe Wikimedia poprzez włączenie wizualnych deskryptorów i miar podobieństwa. Model ten odpowiada na ograniczenia tradycyjnych zbiorów danych, które głównie zawierają metadane, umożliwiając wizualne zapytania semantyczne i ocenę podobieństwa poprzez łączenie obrazów z DBpedia Commons⁹.

Podobnie inna MMKG Richpedia podejmuje wyzwanie niekompletnych wykresów wiedzy w badaniach naukowych. Agreguje 2 883 162 byty wizualne z Wikipedii oraz 30 638 jednostek tekstowych z Wikidanych. Richpedia obsługuje zapytania na poziomie aspektowym i stosuje metody wydobywania relacji semantycznych z nieustrukturyzowanych treści, w tym elementów obrazów, powiązanego tekstu i hiperłączy¹⁵.

ImageGraph rozwija to badanie, tworząc relacyjny graf wiedzy oparty na zbiorze danych FB15K, wzbogacony o 829 931 obrazów i podpisów przeszukanych przez internet. Zawiera 14 870 encji i 1 330 typów relacji, umożliwiając wizualne zapytania kontekstowe oraz dokładniejsze odpowiedzi dzięki wspieraniu parametrów zapytań opartych na koncepcjach¹⁶.

VisualSem to kolejny kompleksowy, wielojęzyczny graf wiedzy integrujący informacje wizualne i tekstowe. Składa się z 89 896 podmiotów, ponad 1,3 miliona glosów oraz 938 100 obrazów. Zaprojektowany do zastosowań takich jak augmentacja danych i uziemienie, VisualSem usprawnia interpretację semantyczną w różnych językach i może być płynnie włączany do różnych potoków przetwarzania¹.

Opracowano także kilka modeli MMKG wspierających zadania takie jak predykcja łącza, klasyfikacja tripletów oraz dopasowywanie encji. Modele te odpowiadają na ograniczenia grafów jednomodalnych, w szczególności na ich niezdolność do uchwycenia złożoności informacji międzymodalnych 16,17,18.

Krytyczne porównanie między modelami MMKG opartymi na językach a VISHAM-KG przedstawiono w Tabeli 1. Skupia się ona szczególnie na ich mocnych stronach i ograniczeniach w kontekście języków o niskich zasobach, takich jak hindi, tamilski czy sanskryt. Metody te często zakładają dostęp do wysokiej jakości korpusów tekstowych, wiarygodnych adnotacji językowych oraz dużych modeli, które są wcześniej trenowane. Czynniki te ograniczają ich zastosowanie do języków o niskich zasobach. W szczególności potoki zależne od OCR są często optymalizowane pod kątem alfabetu łacińskiego i wykazują obniżoną dokładność dla alfabetu indyjskiego, co prowadzi do szumów lub niekompletnej ekstrakcji tekstu. Ponadto wstępne przetwarzanie językowe, tagowanie części mowy oraz rozpoznawanie nazw jednostek są często trenowane w językach o wysokich zasobach. Wykazują one drastyczną obniżoną wydajność w przypadku morfologicznie bogatych, składniowo elastycznych języków, takich jak hindi.

MMKG Model	Mocne strony	Ograniczenia w warunkach o niskiej osłabieniu zasobów
IMGpedia	Integruje obrazy z DBpedia	Skupia się wyłącznie na treściach angielskich
	Obsługuje zapytania o podobieństwo wizualne	Brak wsparcia dla pisma niełacińskiego
		Ograniczony kontekst kulturowy dla regionalnych – wizualizacje
Richpedia	Łączy wizualne i tekstowe byty z Wikipedii i Wikidanych	Niewystarczająca reprezentacja wiedzy indyjskiej lub ludowej
Richpedia	Dostępne zapytania na poziomie aspektów	Zakłada wysoką jakość dopasowania, czego brakuje w zbiorach danych regionalnych
ImageGraph	Relational KG z obrazami i podpisami	Ekstrakcja encji i relacji dostrojona do korpusów angielskich
ImageGraph	Obsługuje rozszerzone zapytania oparte na tripletach	Awarie w środowiskach z rzadkimi podpisami lub brakującymi metadanymi
VisualSem	Wsparcie wielojęzyczne	Słaba reprezentacja języków azjatyckich o niskich zasobach
VisualSem	Przydatne w neuronowych pipeline'ach semantycznych	Brak poparcia dla devanagari ani kulturowo ugruntowanej wizualnej semantyki
VISHAM-KG	Relational KG z obrazami w językach indyjskich	Zależności od języka
VISHAM-KG	Potoki semantyczne dla morfologicznie bogatej składni	To zależy od różnych tagów POS w różnych językach.

Tabela 1: Krytyczne porównanie MMKG z ograniczeniami w językach o niskich zasobach.

Istniejące modele MMKG opierają się na statycznych grafach wiedzy, nie dostosowując się do dynamicznych kontekstów rzeczywistych, gdzie nowe typy encji i asocjacji powstają dzięki trenowaniu na pojedynczym zbiorze danych. Dlatego kluczowe jest opracowanie modeli o możliwościach dynamicznych¹⁶. W tym kontekście występują następujące ograniczenia: nieprawidłowe wykorzystanie danych tekstowych w działaniach wizualnych, takich jak identyfikacja obiektów, ekstrakcja i adnotacja; opracowywanie skalowalnych metod konstruowania wielomodalnych grafów wiedzy z heterogenicznych źródeł; oraz włączanie informacji kontekstowych do wielomodalnych grafów wiedzy dla lepszego zrozumienia i interpretacji.

W tych warunkach VISHAM-KG różni się od wcześniejszych metod wykorzystując zaawansowane techniki ekstrakcji wizualnej do definiowania węzłów i relacji bezpośrednio z dokumentów wizualnych. Łączy standardowe etapy przetwarzania tekstu, takie jak tokenizacja, usuwanie wyrazów stopowych i tagowanie części mowy z technikami grafów semantycznych, aby ustrukturyzować wyodrębnioną wiedzę. Łącząc widzenie komputerowe z ontologią, system oferuje kilka zalet:¹⁹: zwiększoną elastyczność, pozwalającą bazie wiedzy na ewolucję zgodnie z potrzebami aplikacji; ulepszoną reprezentację semantyczną wspierającą interoperacyjność między systemami; oraz lepsze wnioskowanie i wyszukiwanie semantyczne, umożliwiające rozszerzenie bazy wiedzy na poziomie kontekstowym.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nie jest wymagana etyczna zgoda dla tego protokołu, ponieważ wykorzystuje wyłącznie publicznie dostępne, nieludzkie, niewrażliwe dane wizualne i tekstowe. Tabela 2 zawiera wszystkie narzędzia i techniki wraz z ich zależnościami. Cały kod źródłowy, pliki konfiguracyjne i skrypty potrzebne do odtworzenia wielomodalnego pipeline'u budowy grafów wiedzy są dostępne w publicznym repozytorium GitHub (preeti017phdit22-wq/VISHAM_KG.). Repozytorium zawiera instrukcje instalacji oraz specyfikacje zależności ułatwiające powtarzalność.

Moduł	Model / Narzędzie	Wersja	Ramy	Cel
OCR	EasyOCR	v1.7.1	PyTorch	Ekstrakcja tekstu hindi
POS + Parsowanie zależności	Strofa (cześć)	v1.6.1	PyTorch	Analiza językowa
NER	BiLSTM-CRF	Szkolony na zamówienie	PyTorch	Uznanie podmiotów w języku hindi
Detekcja obiektów	YOLOv8	v8.0.208	Ultralityki	Ekstrakcja wizualnych bytów
Osadzenia tekstu	Baza XLM-R	2023-05	HuggingFace	Wielojęzyczne kodowanie tekstu
Wizualne osadzenia	CLIP-ViT-B/32	2022-09	OpenAI	Kodowanie obrazu
Przechowywanie grafów	Neo4j	v5.13	Neo4j	Budowa KG
Podobieństwo	Podobieństwo cosinusowe	–	NumPy	Międzymodalne wyrównanie

Tabela 2: Narzędzia i techniki stosowane na każdym etapie budowy VISHAM-KG.

1. Konstrukcja grafu wiedzy

Przygotowanie danych
1. Zbierz 10 dokumentów z bajek dla dzieci z wymienionych źródeł ^11,13. Potwierdź dostępność dokumentów obrazkowych dla każdego dokumentu.
2. Przechowuj każdy dokument jako uporządkowaną jednostkę zawierającą pliki obrazów (PNG lub JPG) oraz odpowiadający mu tekst w języku hindi.
3. Przypisz unikalny identyfikator dokumentu łączący każdy obraz z powiązanym tekstem.
Ekstrakcja tekstu i wstępne przetwarzanie
1. Wyodrębniaj tekst ze skanowanych obrazów za pomocą EasyOCR (skonfigurowanego dla pisma devanagari), aby wyodrębnić tekst hindi z obrazów dokumentów (Rysunek 2).
2. Normalizuj wyodrębniony tekst poprzez usunięcie artefaktów OCR i usuwanie zbędnych symboli.
3. Wykonaj segmentację zdań i tokenizację. Tokenizuj tekst na słowa. Usuń słowa stop, korzystając z wcześniej zdefiniowanej listy słów stopi w języku hindi.
4. Wykonaj tagowanie części mowy i parsowanie zależności za pomocą NLP zgodnego z językiem hindi za pomocą Stanza (Hi).
5. Identyfikacja nazwanych jednostek za pomocą modelu BiLSTM-CRF.
6. Wyodrębnij trójki podmiot-relacja-obiekt za pomocą szablonów reguł zależności. Wygeneruj drzewo zależności z oznaczonymi relacjami gramatycznymi do konstruowania znaczących trójek (Rysunek 3).

Rysunek 2: Ekstrakcja prostego tripletu podmiot-czasownik-dopełnienie z tekstu hindi z użyciem relacji tylko czasownikow . Schemat blokowy opisuje wyodrębnienie prostego tryletu podmiot-czasownik-dopełnienie z tekstu hindi, używając relacji wyłącznie czasownikowe. Proszę kliknąć tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 3: Relacja rozszerzonych przyimków czasownikowych. Rysunek ilustruje rozszerzoną relację przyimków czasownikowych w celu identyfikacji formacji trypletów. Proszę kliknąć tutaj, aby zobaczyć większą wersję tego rysunku.

Ekstrakcja wizualnych bytów
1. Załaduj każdy obraz i zastosuj wykrywanie obiektów za pomocą modelu wykrywania obiektów YOLOv8 (Rysunek 4).
2. Wyodrębnij ramki ograniczające, etykiety klas oraz oceny zaufania zidentyfikowanych obiektów na obrazie (Rysunek 5).
3. Filtruj wykryte obiekty, zachowując wykrycia z ocenami pewności ≥ 0,50. Rejestruj filtrowane obiekty jako byty wizualne (OPCJONALNIE). Zapisuj wizualne obiekty z współrzędnymi ramek ograniczających i generuj listę tych obiektów.

Rysunek 4: Wykrywanie obiektów. Ilustracja ilustruje wykrywanie obiektów za pomocą YOLOv8. Proszę kliknąć tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 5: Ekstrakcja cech wizualnych oraz wykrywanie i identyfikacja obiektów. Rysunek ilustruje ekstrakcję cech wizualnych za pomocą warstw splotowych i YOLOv8, a następnie doprecyzowanie regionu i wyrównanie na podstawie wyników podobieństwa. Prosimy kliknąć tutaj, aby zobaczyć większą wersję tego rysunku.

Osadzanie i wyrównanie encji
1. Generuj kontekstowe osadzenia dla encji tekstowych z wykorzystaniem osadzeń XLM-R. Generuj wizualne osadzenia dla wykrytych obiektów za pomocą osadzeń CLIP-ViT (Rysunek 6).
2. Projektuj teksty i wizualne osadzenia w wspólnej przestrzeni ukrytej i normalizuj je do długości jednostki.
3. Oblicz podobieństwo cosinusowe między każdą parą tekstową i wizualną embedding. Wyrównuj byty, gdy podobieństwo ≥ zdefiniowanym progu τ (domyślnie τ = 0,65). Stwórz listę wyrównanych par encji tekst-obraz.

Rysunek 6: Wizualne wykrywanie obiektów i fuzja tagów POS. Rysunek ilustruje fuzję detekcji obiektów wizualnych i tagów POS dla ekstrakcji tripletów z grafu wiedzy. YOLO i CIFAR-100 identyfikują obiekty wykazujące wielomodalne wyrównanie. Proszę kliknąć tutaj, aby zobaczyć większą wersję tego rysunku.

Ekstrakcja tripletowa
1. Wyodrębniaj tekstowe trójki za pomocą reguł zależności, które odwzorowują struktury podmiot-czasownik-dopełnienie.
2. Wyprowadzanie relacji wizualnych za pomocą zasad bliskości przestrzennej i współwystępowania.
3. Generuj wielomodalne trójki poprzez łączenie wyrównanych bytów tekstowych i wizualnych za pomocą etykiet relacji. Weryfikuj trójki pod kątem spójności składniowej i semantycznej.
Budowa grafu wiedzy
1. Przekonwertowanie wyrównanych encji w trójki zgodne z RDF. Łączenie trójek tekstowych i wizualnych w zunifikowany graf.
2. Wstaw encje jako węzły, a relacje jako krawędzie. Zakoduj linki multimodalne za pomocą jawnych predykatów. Zapisz powstały graf w Neo4j (OPCJONALNIE). Obecnie generowany jest finalizowany multimodalny graf wiedzy z wyrównanymi trójkami tekstowo-obrazowymi.
  UWAGA: Systematyczne podejście do konstruowania multimodalnego grafu wiedzy na podstawie dokumentów wizualnych w języku hindi pokazano na Rysunku 7.

Rysunek 7: Potok do budowy multimodalnych grafów wiedzy. Diagram blokowy przedstawia potoki dla VISHAM-KG. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Użyj poniższego pseudokodu do konstrukcji grafu wiedzy.
Input:
D : Zestaw dokumentów tekstowo-obrazowych w języku hindi
τ : Próg podobieństwa dla wyrównania
Każdą parę dokumentów wstępnie przetwarzaj (T, I)∈D
Jeśli T zostanie zeskanowane, wyodrębnij tekst T' za pomocą tokenizacji OCRPerform, lemmatyzacji i usuwania słów stop
Zastosowanie tagowania POS i parsowania zależności za pomocą Stanza
Wykrywanie obiektów w I za pomocą YOLOv8
Wyodrębniaj ramki ograniczające, etykiety L_i oraz wskaźniki ufności > 0,5
Generowanie osadzania
Identyfikacja nazwanych jednostek E_Tod T' za pomocą BiLSTM-CRF
Wyodrębniaj byty wizualne E_Vz L_i
Oblicz tekstowe osadzenia E_T z XLM-R.
Oblicz wizualne osadzenia E_V z CLIP-ViT
Dopasowanie jednostek z ekstrakcją tripletową
Dla każdej pary (e_t,e _v) w E_T x E_V:
Oblicz podobieństwo cosinusowe S = cos(E_V,E _T)
Ustaw próg τ=0,6
Jeśli s≥τ, dodaj tryplo (e_t, has_image,e_v) do zbioru F.
Wyodrębniaj (h,r,t) trojki z T' za pomocą reguł zależności.
Wywodź relacje wizualne z współwystępowania przestrzennego lub opartego na podpisach.
Projekty E_t i_{E v} w wspólną, ukrytą przestrzeń.
Oceniaj trójki i zachowuj te powyżej progu pewności.
Dodaj zweryfikowane tryfle i encje do wykresu G.
Wydajność: ostatni KG w Neo4j.

2. Procedura oceny

UWAGA: Historie dla dzieci w języku hindi są wybierane do oceny ram VISHAM-KG, ponieważ zapewniają kontrolowane, wizualnie ugruntowane narracje z jasnymi bytami i relacjami, umożliwiając wiarygodną weryfikację wielomodalnego wyrównania, konstrukcji grafów i wnioskowania przed wdrożeniem na skalę domeny. Wszystkie ustawienia hiperparametrów przedstawiono w Tabeli 3.

Moduł	Hiperparametr	Wymiary
OCR	Próg ufności	0.5
Ekstrakcja bytu	Wymiar osadzenia	300
Detekcja obiektów	Próg ufności	0.5
	Rozmiar obrazu wejściowego	640 × 640
Osadzanie tekstu	Model językowy	XLM-R
	Wymiar osadzenia	768
Osadzanie obrazów	Model wizji	CLIP-ViT-B/32
	Wymiar osadzenia	768
Przebieg trasy	Metryka podobieństwa	Podobieństwo cosinusowe
Dopasowanie tekstu do obrazu	Próg podobieństwa kosinusowego (τ)	0.6
Przewidywanie łącza	Wymiar osadzenia	100
	Epoki szkolenia	50
	Próbkowanie ujemne	Mundur
Ocena	Podział pociągu na test	80 / 20

Tabela 3: Ustawianie hiperparametrów dla frameworka.

Składnik	Hrabia
Obrazy dokumentów	10
Byty tekstowe	186
Byty wizualne	97
Relacje pochodzące z tekstu	105
Relacje pochodzące z wizualnych	41
Trylety tekstowe i wizualne	312

Tabela 4: Wykres wiedzy i statystyka trójek.

Składanie i podział zbiorów danych
1. Zbiór danych ewaluacyjnych składa się z 10 opowieści dla dzieci, z których każda jest opatrzona ilustracyjnymi obrazkami. Wykonaj proces ekstrakcji encji opisany w krokach 1.2-1.4. Wyniki przedstawiono w Tabeli 4.
2. Skonstruuj dwa warianty grafu: jeden Tekstowy Graf Wiedzy (T-KG) używający wyłącznie tekstowych trójek oraz drugi Multimodalny Graf Wiedzy (MM-KG) z połączonymi trójkami tekstowymi i wizualnymi.
3. Aby zapewnić kontrolowaną ocenę, dla obu grafów należy stosować identyczne podziały danych.
4. Losowo podzielić trójki wyodrębnione na partie w 80:20, czyli 80% dla konstrukcji grafu (zbiór treningowy) i 20% zachowane do oceny (zestaw testowy). Stosuj ten podział konsekwentnie zarówno do tekstowego KG, jak i MMKG, aby zapewnić uczciwe porównanie.
Baza i metryki oceny
1. Tekstowa KG stanowi punkt wyjścia. Proponowany framework, VISHAM KG, reprezentuje proponowaną metodę. Dla obu grafów używamy identycznej ontologii z identyfikatorami encji i zapytaniami ewaluacyjnymi. Jedyną różnicą między tymi dwoma grafami jest uwzględnienie obiektów wizualnych w VISHAM-KG.
Metryki ewaluacyjne i predykcja łącza
1. Użyj standardowych metryk predykcji linków²⁰: Średnia Ranga Wzajemności (MRR), Hits@1, Hits@3, Hits@10. Hit@K, zdefiniowana jako odsetek przypadków, gdy właściwy podmiot pojawia się w górnych N rankingach.
2. Dla każdego tryletu testowego (głowa, relacja, ogon) zamaskuj albo główkę, albo ogon. Uszereguj wszystkie kandydujące byty na podstawie podobieństwa cosinus w przestrzeni współdzielonej embedding (Tabela 5).

Byt tekstowy	Byt wizualny	Podobieństwo cosinusowe
शेर		0.78
लोमड़ी		0.82

Tabela 5: Wyniki podobieństwa cosinusowego między osadzeniami tekstu i obrazów.

Generuj przewidywania niezależnie dla osadzeń tylko tekstowych i wielomodalnych (VISHAM-KG).
Oblicz wyniki za pomocą średniej rangi odwrotności (MRR) jako średniej odwzajemnionych rang właściwej jednostki we wszystkich zapytaniach²¹. Korzystając z Tabeli 6, wyraź wszystkie wyniki w formacie dziesiętnym dla spójności w eksperymentach²².

Model	MRR	Hits@1	Hits@3	Hits@10
TransE	0.42	0.21	0.48	0.72
ComplEx	0.47	0.26	0.52	0.74
RotatE	0.51	0.31	0.58	0.74
VISHAM-KG (tekst)	0.49	0.36	0.62	0.76

Tabela 6: Wydajność przewidywania łącza na tryletach tylko tekstowych.

Wykorzystaj te metryki do weryfikacji mocy predykcyjnej multimodalnego grafu wiedzy w odzyskiwaniu brakujących ogniw, jak pokazano w Tabeli 7.

Model	MRR	Hits@1	Hits@3	Hits@10
IKRL	0.46	0.34	0.63	0.72
VisualBERT	0.52	0.35	0.61	0.72
ViLBERT	0.54	0.38	0.64	0.75
VISHAM-KG	0.57	0.41	0.66	0.79

Tabela 7: Wydajność w zadaniach przewidywania tripletów międzymodalnych.

Do oceny użyj poniższego pseudokodu.
Dla każdego wariantu grafu wiedzy G∈{G_T,G _MM}:
Podział tripletowy
Wyodrębnij wszystkie tryple T_all z G.
Losowo podziel T_nazbiór treningowy (80%) i_test testowy T (20%).
Skonstruuj graf_{G train} używając trójek w_ciągu T.
Wskaźnik podobieństwa i osadzenie
Dla_{każdego testowego} tryletu (h,r,t)∈T test:
Maskuj jednostkę typu head lub tail, aby utworzyć zapytanie (h,r,?) lub (?,r,t).
Wygeneruj kandydata na zbiór encji C z encji w_pociągu G.
Oblicz współczynnik podobieństwa osadzenia S=cos(e_query,e _c) dla każdego e_c∈ C.
Uszereguj wszystkie kandydujące podmioty na podstawie malejącego wyniku podobieństwa.
Obliczenia metryczne
Oblicz rangę właściwej jednostki dla każdego zapytania.
Oblicz średnią odwzajemnioną rangę (MRR) dla wszystkich zapytań testowych.
Oblicz Hits@1, Hits@3 i Hits@10.
Porównaj wyniki oceny między KG G_{G T} wyłącznie tekstowym a multimodalnym KG G_MM.
Efekt: Dostarczanie wyników jakościowych i ilościowych bezpośrednio przypisywanych do integracji multimodalnej
Podobieństwo międzymodalne
1. Oblicz wyniki podobieństwa, aby ocenić zgodność między osadzeniami tekstowymi a wizualnymi. Normalizuj zarówno osadzenia tekstowe, jak i wizualne do długości jednostkowej, aby zapewnić spójność skali. Użyj podobieństwa cosinusowego jako głównej metryki²².
2. Dla każdej pary (e_t, e_v) osadzania encji tekstowej i wizualnej encji obliczamy wynik podobieństwa²³.
  Score(e_t,e _v) = λ ·_{sim text}(e_t,e _v) + (1-λ) ·_{sim visual} (e_t,e _v) .
  gdzie:
  λ∈ [0,1] to parametr ważenia modalności,
  _Tekst symulacyjny to podobieństwo cosinusowe między osadzeniami tekstowymi,
  _{Sim Visual} to podobieństwo cosinusowe między osadzeniami wizualnymi.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Proponowany VISHAM-KG jest oceniany na podstawie obliczeń wyniku podobieństwa oraz zadań predykcji powiązań, które są powszechnie stosowane w benchmarku reprezentacji wiedzy.

Układ eksperymentalny

Ocenić skonstruowany multimodalny graf wiedzy przy użyciu dwóch ustalonych zadań: (i) oceny podobieństwa międzymodalnego oraz (ii) przewidywania łącza w grafie wiedzy. Wszystkie oceny przeprowadź wyłącznie na finalnym wyjściu grafu wygenerowanym na końcu p...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wydajność frameworka VISHAM-KG opiera się głównie na trzech kluczowych komponentach: OCR dla tekstu w języku Devanagari (krok 1.2), wykrywaniu obiektów wizualnych opartych na zaufaniu za pomocą Clip-ViT (krok 1.3) oraz osadzaniu opartym na wyrównaniu międzymodalnym (krok 1.4). Dokładność OCR bezpośrednio wpływa na dalsze analizowanie językowe i ekstrakcję encji. Błędy wprowadzone na tym etapie propagują się w identyfikacji relacji i zmniejszają precyzję wyrównania. Efekt ten jest łagodzony poprzez specyficzną dla hindi n...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy deklarują, że nie ma konfliktów interesów dotyczących publikacji tego artykułu.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
BiLSTM-CRF i indyjski model NER	Szkolony na zamówienie	PyTorch	Rozpoznawanie nazwanych podmiotów
CLIP-ViT-B/32	2022-09	OpenAI	Generowanie wizualnego osadzania
CPU	Intel i9	Intel	Obliczenia ogólne
EasyOCR	v1.7.1	Zamknięta AI	Ekstrakcja tekstu hindi z obrazów
GPU	NVIDIA RTX 3090	NVIDIA	Przyspieszenie wnioskowania modelu
Historie o hinduskich dzieciach	10 opowieści	Kuratorowany zbiór danych	Korpus ewaluacyjny
Neo4j	v5.13	Neo4j Inc.	Przechowywanie grafów wiedzy
NumPy	v1.24	Społeczność NumPy	Obliczenia numeryczne
Pandy	v2.0	Społeczność Pandas	Obsługa danych
Python	v3.10	Python Software Foundation	Implementacja potoku
PyTorch	v2.0	Meta AI	Ramy uczenia głębokiego
Strofa (model hindi)	v1.6.1	Stanford NLP	Tagowanie POS i parsowanie zależności
XLM-R (Baza)	2023-05	HuggingFace	Generowanie osadzenia tekstu
YOLOv8	v8.0.208	Ultralityki	Wizualne wykrywanie obiektów

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023).
Ektefaie, Y., et al. Generalized multimodal models for life sciences. Nat Mach Intell. 5 (4), 340-350 (2023).
Exner, P., Nugues, P. Entity extraction: From unstructured text to DBpedia RDF triples. Proc CEUR Workshop. , 58-69 (2012).
Fan, T., Wang, H., Hodel, T. Multimodal knowledge graph construction of Chinese traditional operas and sentiment and genre recognition. J Cultural Heritage. 62, 32-44 (2023).
Fang, Q., Zhang, X., Hu, J., Wu, X., Xu, C. Contrastive multimodal knowledge graph representation learning. IEEE Trans Knowl Data Eng. 35 (9), 8983-8996 (2022).
Fang, Y., Kuan, K., Lin, J., Tan, C., Chandrasekhar, V. Object detection meets knowledge graphs. Proc IJCAI. , 1-8 (2017).
Fensel, D., et al. Introduction: What is a knowledge graph. , Semant WebSpringer. 1-10 (2020).
Ferrada, S., Bustos, B., Hogan, A. IMGpedia: A linked dataset with content-based analysis of Wikimedia images. , Semant WebSpringer. 84-93 (2017).
Gong, D., Wang, D. Z. Extracting visual knowledge from the web with multimodal learning. Proc IJCAI. , 1718-1724 (2017).
Hollink, L., Bedjeti, A., Van Harmelen, M., Elliott, D. A corpus of images and text in online news. Proc LREC. , 1377-1382 (2016).
Jain, P., Darbari, H., Bhavsar, V. C. Vishit: A visualizer for Hindi text. Proc IEEE Conf. , 886-890 (2014).
StoryWeaver: Free multilingual story platform for children. , Pratham Books. https://storyweaver.org.in/en (2025).
Zhu, B., et al. MMIEA: Multimodal interaction entity alignment model for knowledge graphs. Inf Fusion. 100, 101935(2023).
Wang, M., Wang, H., Qi, G., Zheng, Q. Richpedia: A large-scale, comprehensive multimodal knowledge graph. Big Data Res. 22, 100159(2020).
Liu, Y., et al. MMKG: Multimodal knowledge graphs. , Semant WebSpringer. 459-474 (2019).
Liang, W., Meo, P. D., Tang, Y., Zhu, J. A survey of multimodal knowledge graphs: Technologies and trends. ACM Comput Surv. 56 (11), 1-41 (2024).
Troussas, C., Krouska, A., Tselenti, P., Kardaras, D. K., Barbounaki, S. Enhancing personalized educational content recommendation through cosine similarity-based knowledge graphs and contextual signals. Information. 14 (9), 505(2023).
Vats, P., Sharma, N., Sharma, D. K. HKG: A novel approach for low resource Indic languages to automatic knowledge graph construction. ACM Trans Asian Low-Resour Lang Inf Process. , (2023).
Wang, D., et al. MM-transformer: A transformer-based knowledge graph link prediction model that fuses multimodal features. Symmetry. 16 (8), 961(2024).
Wang, Z., Liu, X., Liu, Z., Weng, Y. A link prediction method for multimodal knowledge graphs based on adaptive fusion and modality information enhancement. Neural Netw. 191, 107771(2025).
Huang, S., Cai, Y., Yuan, L., Wang, J. A knowledge-enhanced network for joint multimodal entity-relation extraction. Inf Process Manag. 62 (3), 104033(2025).
Wang, L., Cheng, H., Wang, R., Huang, X. Machining scheme selection of features based on process knowledge graph and improved cosine similarity matching. Machines. 13 (3), 1-20 (2025).
Zhu, J., et al. A novel cosine-derived probability distribution: Theory and data modeling with computer knowledge graph. Alex Eng J. 103, 1-11 (2024).
Li, Z., Tang, J., Mei, T. Deep collaborative embedding for social image understanding. IEEE Trans Pattern Anal Mach Intell. 41 (9), 2070-2083 (2018).
Qian, Y., Pan, L. Leveraging multimodal features for knowledge graph entity alignment based on dynamic self-attention networks. Expert Syst Appl. 228, 120363(2023).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Wielomodalne wykresy wiedzy oparte na analizie językowej opartej na regułach i widzeniu komputerowym

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles