$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Visual-Semantic Hindi-Aligned Multimodal Knowledge Graph (VISHAM-KG) to ramy zaprojektowane do tworzenia spójnych multimodalnych grafów wiedzy (KG) z dokumentów wizualnych w języku hindi poprzez systematyczne wyrównywanie jednostek tekstu wizualnego. Celem tego badania jest integracja analizy językowej opartej na regułach z detekcją obiektów opartą na wizji komputerowej, która wspiera ustrukturyzowaną reprezentację semantyczną i ugruntowane rozumowanie w językach indyjskich o niskich zasobach. Proponowany algorytm rozpoczyna się przygotowaniem wizualnych dokumentów wizualnych w języku hindi (NLP), a następnie stosuje optyczne rozpoznawanie znaków (OCR) do ekstrakcji pisma devanagari i wstępnego przetwarzania językowego, które obejmuje różne procesy, takie jak tokenizacja, lemmatyzacja, tagowanie części mowy oraz parsowanie zależności. Równolegle obiekty wizualne są wyodrębniane z obrazów za pomocą wykrywania obiektów i filtrowane za pomocą progów ufności. Byty tekstowe i wizualne są osadzone w wspólnej przestrzeni semantycznej za pomocą wielojęzycznego modelu transformera XLM-R, wraz z CLIP-ViT, i wyrównane za pomocą progów opartych na podobieństwie kosinusowym. Te wyrównane byty są łączone z relacjami zależnościami opartymi na regułach, aby generować wielomodalne trójki. Protokół generuje ustrukturyzowany multimodalny graf wiedzy zakodowany jako trójaczki podmiot-relacja-obiekt z wyraźnym wizualnym podstawą opartą na indyjskiej bazie wiedzy. Uzyskany wynik będzie wspierał zapytania międzymodalne, wyrównywanie encji oraz rozumowanie na grafach wiedzy dla dokumentów wizualnych w języku hindi oraz zapewnił replikowalne ramy do wielomodalnej konstrukcji wiedzy w językach językowych o niskich zasobach.