$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Görsel Anlamsal Hintçe Hizalı Çok Modlu Bilgi Grafiği (VISHAM-KG), görsel-metin varlıklarını sistematik olarak hizalayarak, Hintçe görsel belgelerden tutarlı çok modlu bilgi grafikleri (KG) oluşturmak için tasarlanmış bir çerçevedir. Bu çalışmanın amacı, kural tabanlı dilsel analizi, düşük kaynaklı Hint dillerinde yapılandırılmış anlamsal temsil ve temelli akıl yürütmeyi destekleyen bilgisayar görüşüne dayalı nesne algılamayla birleştirmektir. Önerilen algoritma, Doğal Dil İşleme (NLP) Hintçe görsel belgelerin hazırlanmasıyla başlar, ardından Devanagari yazısı çıkarımı ve dilsel ön işleme için optik karakter tanıma (OCR) gelir; bu süreç tokenizasyon, lemmatizasyon, konuşma parçası etiketleme ve bağımlılık ayrıştırma gibi çeşitli süreçleri içerir. Paralel olarak, görsel varlıklar nesneler algılama yoluyla görüntülerden çıkarılır ve güven eşikleri kullanılarak filtrelenir. Metinsel ve görsel varlıklar, çok dilli transformatör modeli XLM-R ile CLIP-ViT kullanılarak paylaşılan anlamsal bir uzaya gömülür ve kosinüs benzerlik temelli eşikler kullanılarak hizalanır. Bu hizalanmış varlıklar, kural tabanlı bağımlılık ilişkileriyle birleştirilerek multimodal üçlemeler oluşturulur. Protokol, Hindistan bilgi tabanına dayanan açık görsel temele sahip özne-ilişki-nesne üçlüleri olarak kodlanmış yapılandırılmış çok modlu bir bilgi grafiği üretir. Bu çıktı, Hintçe görsel belgeler için çapraz modal sorgulama, varlık hizalanması ve bilgi grafiği akıl yürütmeyi destekleyecek ve düşük kaynaklı dilsel ortamlarda çoklu modal bilgi inşası için tekrarlanabilir bir çerçeve sağlayacaktır.