Kural Tabanlı Dilbilimsel Analiz ve Bilgisayar Görüşüne Dayalı Çok Modlu Bilgi Grafikleri

Preeti Vats; Nonita Sharma; Deepak Kumar Sharma; Alongbar Wary

doi:10.3791/69803

Method Article

Kural Tabanlı Dilbilimsel Analiz ve Bilgisayar Görüşüne Dayalı Çok Modlu Bilgi Grafikleri

DOI:

10.3791/69803

⸱

April 3rd, 2026

Preeti Vats¹ , Nonita Sharma¹ , Deepak Kumar Sharma¹ , Alongbar Wary¹

¹Indira Gandhi Delhi Technical University for Women

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG, metin ve görsel varlıkları hizalayarak Hintçe görsel belgelerden bilgi grafikleri oluşturan çok modlu bir çerçevedir. Kural tabanlı dilbilimsel analizi bilgisayar görme teknikleriyle birleştirerek düşük kaynaklı Hint dillerinde özne-ilişki-nesne üçlüleri üretir.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Görsel Anlamsal Hintçe Hizalı Çok Modlu Bilgi Grafiği (VISHAM-KG), görsel-metin varlıklarını sistematik olarak hizalayarak, Hintçe görsel belgelerden tutarlı çok modlu bilgi grafikleri (KG) oluşturmak için tasarlanmış bir çerçevedir. Bu çalışmanın amacı, kural tabanlı dilsel analizi, düşük kaynaklı Hint dillerinde yapılandırılmış anlamsal temsil ve temelli akıl yürütmeyi destekleyen bilgisayar görüşüne dayalı nesne algılamayla birleştirmektir. Önerilen algoritma, Doğal Dil İşleme (NLP) Hintçe görsel belgelerin hazırlanmasıyla başlar, ardından Devanagari yazısı çıkarımı ve dilsel ön işleme için optik karakter tanıma (OCR) gelir; bu süreç tokenizasyon, lemmatizasyon, konuşma parçası etiketleme ve bağımlılık ayrıştırma gibi çeşitli süreçleri içerir. Paralel olarak, görsel varlıklar nesneler algılama yoluyla görüntülerden çıkarılır ve güven eşikleri kullanılarak filtrelenir. Metinsel ve görsel varlıklar, çok dilli transformatör modeli XLM-R ile CLIP-ViT kullanılarak paylaşılan anlamsal bir uzaya gömülür ve kosinüs benzerlik temelli eşikler kullanılarak hizalanır. Bu hizalanmış varlıklar, kural tabanlı bağımlılık ilişkileriyle birleştirilerek multimodal üçlemeler oluşturulur. Protokol, Hindistan bilgi tabanına dayanan açık görsel temele sahip özne-ilişki-nesne üçlüleri olarak kodlanmış yapılandırılmış çok modlu bir bilgi grafiği üretir. Bu çıktı, Hintçe görsel belgeler için çapraz modal sorgulama, varlık hizalanması ve bilgi grafiği akıl yürütmeyi destekleyecek ve düşük kaynaklı dilsel ortamlarda çoklu modal bilgi inşası için tekrarlanabilir bir çerçeve sağlayacaktır.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bilgi grafikleri (KG'ler), varlıkların düğüm olarak modellendiği, ilişkilerin kenar olarak modellendiği yapılandırılmış anlamsal grafiksel temsillerdir. Soru yanıtlama, öneri sistemleri ve bilgi çıkarma gibi çeşitli uygulamalarda verimli bilgi bulgusu ve bağlamsal akıl^{yürütmeyi sağlar 1}. Son on yılda, KG yapım metodolojileri önemli ölçüde geliştirilmiştir. Ancak, mevcut yaklaşımların çoğu, ağırlıklı olarak büyük ölçekli metin^{korpusları 2'ye} dayanan kaynak açısından zengin diller için tasarlanmıştır. Sonuç olarak, düşük kaynaklı diller az temsil edilmeye devam eder ve KG tabanlı teknolojilerin kültürel ve dilsel olarak çeşitli ortamlarda uygulanabilirliğini^{sınırlar 3}. Paralel olarak, özellikle eğitim, kültürel ve miras alanlarındaki gerçek dünya belgelerinin giderek artan bir kısmı, metin merkezli grafik oluşturma yöntemleriyle yeterince yakalanmayan zengin görsel^{bilgiye sahiptir 4}.

Multimodal bilgi grafikleri (MMKG'ler), görsel, ses veya video gibi metin dışı modaliteleri entegre ederek geleneksel KG'leri genişleterek temelli anlamsal temsil⁵. IMGpedia, Richpedia ve ImageGraph gibi önceki MMKG çerçeveleri, görsel bilgiyi metin varlıklarıyla ilişkilendirmenin daha iyi anlamsal sorgulama ve mantık oluşturma için değerini^{göstermektedir} ^6,7,8. Bu gelişmelere rağmen, mevcut yöntemler büyük ölçüde İngilizce merkezlidir, kürenmiş meta verilere veya statik veri setlerine dayanır ve yapılandırılmamış görsel belgelerden doğrudan MMKG'ler oluşturmak için sınırlı prosedürel rehberlik sağlar. Ayrıca, bu çerçeveler düşük kaynaklı dillere özgü betibe özgü Optik Karakter Tanıma (OCR) hataları, morfolojik değişkenlik ve seyrek açıklamalı veriler ^9,10 gibi sorunları açıkça ele almaz^.

Bu çerçevenin amacı, metin ve görsel varlıkları sistematik olarak hizalayarak, Hintçe görsel belgelerden çoklu modal bir bilgi grafiği oluşturmak için adım adım bir metodolojiyi uygulamaktır. Önerilen çerçeve, Görsel Anlamsal Hintçe Uyumlu Çok Modal Bilgi Grafiği (VISHAM-KG), kural tabanlı dilbilimsel analizi nesnelerin çıkarımına dayanan bilgisayar görüşü ile bütünleştirerek görsel belgelerin dinamik grafik yapısını mümkün kılmaktadır. Mevcut MMKG yaklaşımlarının aksine, VISHAM-KG, ham Hintçe metin ve görsellerden doğrudan varlıkları ve ilişkileri çıkarır, ilişki tanımlama için bağımlılığa dayalı dilbilgisi kuralları uygular ve dış ^11,12'ye dayanmak yerine gömüme tabanlı benzerlik eşikleri kullanarak çapraz modal varlık hizalanması gerçekleştirir.

VISHAM-KG, metinsel ve görsel içeriklerin anlamsal olarak ilişkilendirildiği resimli belgeler için tasarlanmıştır; örneğin çocuk^{hikayeleri 13}, eğitim materyalleri, gazete¹¹ ve kültürel temelli anlatımlar. Bahsedilen çerçeve yürütülürken optik karakter tanıma kalitesi, nesne algılama kapsamı ve alana özgü kelime dağarcığına bağımlılık gibi bazı sınırlamalarla karşılaşılmıştır. Her prosedürel adımı açıkça belgeleyerek, VISHAM-KG, düşük kaynaklı dilsel bağlamlarda çoklu modlu bilgi grafiği inşamı için tekrarlanabilir bir protokol sunarken, temelli anlamsal akıl yürütmeyi ve çapraz modal analizi destekler.

VISHAM-KG, mevcut MMKG yaklaşımlarından farklıdır; çünkü yapılandırılmamış Hintçe metin ve görsellerden doğrudan varlıkları ve ilişkileri çıkarır; ilişki çıkarımı için kural tabanlı bağımlılık ayrıştırmasının kullanılması; ve metin ve görsel varlıkları, meta veri eşleştirmesi yerine göme tabanlı benzerlik eşikleriyle^hizalamak ^8,10 (Şekil 1).

Şekil 1: Uçtan uca çerçeve. Şekil, çok modlu bilgi için uçtan uca çerçeveyi göstermektedir Grafik VISHAM-KG. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Bu protokol, eğitim materyalleri ve kültürel anlatılar gibi metin-görüntü içeriğiyle uyumlu olan resimli belgeler için geçerlidir. Bu çerçevede, YOLOv8, görsel belgelerde nesne algılamadaki verimliliği ve dayanıklılığı nedeniyle seçilmiştir. XLM-R, düşük kaynaklı Hintçe metin işleme için oldukça uygun olan güçlü çapraz dillerarası temsilleri nedeniyle seçilir ve CLIP-ViT, paylaşılan görsel metin göme alanlarını öğrenme konusunda kanıtlanmış yeteneği nedeniyle kullanılır; bu da etkili çapraz modal hizalama sağlar. Ancak OCR doğruluğu, nesne algılama kapsamı ve alana özgü kelime kısıtlamaları ile sınırlıdır.

İlgili çalışmalar

Geleneksel bir bilgi grafiği G=(E,R,F), varlıklar E, ilişkiler R ve her üçlü (h,r,t)⁸ biçimindedir. Bunu genişleterek, Multi-Modal Bilgi Grafiği (MMKG), görüntü, ses ve video gibi metin dışı modalitelerle ilişkili E^{varlıklarını içerir 14}.

MMKG'lerde görsel verileri temsil etmek için iki ana strateji kullanılır:
Metin varlıklarına bağlı öznitelikler olarak
Belirli bir notlanmış ilişki aracılığıyla bağlı görsel varlıklar olarak

Dikkate değer bir çalışma, görsel tanımlayıcılar ve benzerlik ölçütleri kullanarak Wikimedia görsel verilerini geliştiren IMGpedia'dır. Bu model, öncelikle meta verileri içeren geleneksel veri setlerinin sınırlamalarını ele alır; görselleri DBpedia^{Commons 9} ile bağlayarak görsel anlamsal sorgulama ve benzerlik değerlendirmesini mümkün kılar.

Benzer şekilde, başka bir MMKG Richpedia ise akademik araştırmalarda eksik bilgi grafiklerinin sorununu ele almaktadır. Wikipedia'dan 2.883.162 görsel varlığı ve Wikidata'dan 30.638 metinsel varlığı toplar. Richpedia, görsel öğeler, ilgili metin ve hiperlinkler dahil olmak üzere, yapılandırılmamış içerikten anlamsal ilişkiler çıkarmak için yöntemler^{kullanır 15}.

ImageGraph, bu çalışmayı FB15K veri setine dayanan ve 829.931 web taramalı görsel ve başlıkla zenginleştirilmiş ilişkisel bir bilgi grafiği oluşturarak genişletiyor. 14.870 varlık ve 1.330 ilişki tipi içerir; bu da kavram tabanlı sorgu parametrelerini destekleyerek görsel-bağlamsal sorgulama ve daha doğru yanıtlar sağlar¹⁶.

VisualSem, görsel ve metinsel bilgileri bütünleyen kapsamlı bir çok dilli bilgi grafiğidir. 89.896 kuruluş, 1,3 milyondan fazla parlatma ve 938.100 görselden oluşmaktadır. Veri artırma ve topraklama gibi uygulamalar için tasarlanmış olan VisualSem, diller arasında anlamsal yorumu geliştirir ve çeşitli işlem boru hatlarına sorunsuz entegre^{edilebilir 1}.

Bağlantı tahmini, üçlü sınıflandırma ve varlık eşleştirme gibi görevleri desteklemek için birkaç MMKG modeli de geliştirilmiştir. Bu modeller, tek modal grafiklerin sınırlamalarını, özellikle çapraz modal bilginin karmaşıklığını yakalayamalarını^{ele alır} 16,17,18.

Dil tabanlı MMKG modelleri ile VISHAM-KG arasındaki kritik karşılaştırma Tablo 1'de sunulmaktadır. Özellikle Hintçe, Tamil veya Sanskritçe gibi düşük kaynaklı diller bağlamında onların güçleri ve sınırlamaları üzerine odaklanıyor. Bu yöntemler genellikle yüksek kaliteli metin korpuslarına, güvenilir dilbilimsel açıklamalara ve büyük ölçekli önceden eğitilmiş modellere erişim varsayar. Bu faktörler, düşük kaynaklı dillere uygulanabilirliklerini sınırlar. Özellikle, OCR'ye bağlı boru hatları sıklıkla Latince alfabeler için optimize edilir ve Hint yazımları için hassasiyet azalır; bu da gürültülü veya eksik metin çıkarımına yol açar. Ayrıca, dilsel ön işleme, konuşma parçası etiketleme ve adlandırılmış varlık tanıma genellikle yüksek kaynaklı dillerde eğitilmektedir. Hintçe gibi morfolojik olarak zengin, sözdizimi olarak esnek dillere uygulandığında performansları ciddi şekilde azalmıştır.

MMKG Modeli	Güçlü Yönler	Düşük Kaynak Ortamlarında Sınırlamalar
IMGpedia	Görüntüleri DBpedia ile entegre eder	Sadece İngilizce içeriklere odaklanır
	Görsel benzerlik sorgularını destekler	Latin dışı alfabeler için destek yok
		Bölgesel görseller için sınırlı kültürel bağlam
Richpedia	Wikipedia ve Wikidata'dan görsel ve metinsel varlıkları birleştirir	Hint veya halk bilgisinin yetersiz temsili
Richpedia	Aspectlevel sorgulama mevcut	Yüksek kaliteli uyum varsayar, ki bu bölgesel veri setlerinde eksik
ImageGraph	İlişkisel KG, görseller ve başlıklarla	İngiliz korpusları için ayarlanmış varlık ve ilişki çıkarımı
ImageGraph	Genişletilmiş üçlü tabanlı sorgulama destekler	Az altyazılı veya eksik meta verilerin olduğu ortamlarda başarısız olur
VisualSem	Çok dilli destek	Asya düşük kaynaklı dillerinin kötü temsili
VisualSem	Sinirsel anlamsal boru hatlarında faydalı	Devanagari veya kültürel temelli görsel anlam desteği yok
VISHAM-KG	İlişkisel KG, Hintçe dillerinde görsellerle	Dil bağımlısı
VISHAM-KG	Morfolojik olarak zengin sözdizimimi için anlamsal boru hatları	Farklı dil dillerinin farklı POS etiketine bağlı.

Tablo 1: MMKG'lerin düşük kaynaklı dillerdeki sınırlamalarla kritik karşılaştırılması.

Mevcut MMKG modelleri, tek veri seti eğitimi nedeniyle yeni varlık türleri ve ilişkilerin geliştiği dinamik gerçek dünya bağlamlarına uyum sağlamayan, statik bilgi grafiklerine dayanır. Bu da dinamik yeteneklere sahip modeller geliştirmeyi kritik^{kılar 16}. Bu bağlamda aşağıdaki sınırlamalar vardır: nesne tanımlama, çıkarma ve açıklama gibi görsel faaliyetlerde metinsel verilerin yanlış kullanımı; heterojen kaynaklardan çok modlu bilgi grafikleri oluşturmak için ölçeklenebilir yöntemler geliştirmek; ve daha iyi anlama ve yorumlama için çok modlu bilgi grafiklerine bağlamsal bilginin dahil edilmesi.

Bu koşullarda, VISHAM-KG, görsel belgelerden doğrudan düğümleri ve ilişkileri tanımlamak için gelişmiş görsel çıkarma teknikleri kullanmasıyla önceki yaklaşımlardan farklıdır. Tokenizasyon, kesinti kelimesi kaldırma ve kelime kısmı etiketleme gibi standart metin işleme adımlarını, çıkarılan bilgiyi yapılandırmak için anlamsal grafik teknikleriyle birleştirir. Bilgisayar görüşü ve ontolojiyi birleştirerek, sistem birkaç avantaj^{sunar 19}: gelişmiş uyum sağlama, bilgi tabanının uygulamaya özgü ihtiyaçlarla evrülmesine olanak tanır; sistemler arasında birlikte çalışabilirliği destekleyen geliştirilmiş anlamsal temsil; ve daha iyi anlamsal çıkarım ve geri getirme, bağlamsal düzeyde bilgi tabanı geliştirmeyi mümkün kılar.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu protokol için etik onay gerekmez çünkü yalnızca kamuya açık olan, insan olmayan, hassas olmayan görsel ve metinsel verileri kullanır. Tablo 2 , tüm araçlar ve tekniklerle birlikte bağımlılıklarını sunar. Multimodal bilgi grafiği oluşturma boru hattını yeniden üretmek için gereken tüm kaynak kodu, yapılandırma dosyaları ve betikler bir GitHub deposunda (preeti017phdit22-wq/VISHAM_KG.) mevcuttur. Depo, tekrarlanabilirliği kolaylaştırmak için kurulum talimatları ve bağımlılık spesifikasyonları içerir.

Modül	Model / Araç	Versiyon	Çerçeve	Amaç
OCR	EasyOCR	v1.7.1	PyTorch	Hintçe metin çıkarımı
POS + Bağımlılık Ayrıştırma	Kıta (merhaba)	v1.6.1	PyTorch	Dilsel ayrıştırma
NER	BiLSTM-CRF	Özel eğitimli	PyTorch	Hintçe varlık tanıma
Nesne Tespiti	YOLOv8	v8.0.208	Ultralitikler	Görsel varlık çıkarımı
Metin Gömülmeleri	XLM-R Tabanı	2023-05	HuggingFace	Çok dilli metin kodlaması
Görsel Gömülmeler	CLIP-ViT-B/32	2022-09	OpenAI	Görüntü kodlaması
Grafik Depolama	Neo4j	v5.13	Neo4j	KG yapısı
Benzerlik	Kosinüs benzerliği	–	NumPy	Çapraz modal hizalama

Tablo 2: VISHAM-KG'nin inşasında her aşamada kullanılan araçlar ve teknikler.

1. Bilgi grafiği yapısı

Veri hazırlama
1. Bahsedilen kaynaklardan 10 çocuk hikayesi belgesi^{topla 11,13}. Her belge için görsel belgelerin bulunabilirliğini onaylayın.
2. Her belgeyi, görsel dosyaları (PNG veya JPG) ve ilgili Hintçe metin içeren yapılandırılmış bir birim olarak sakla.
3. Her görüntüyü ilgili metnine bağlayan benzersiz bir belge tanımlayıcısı atayın.
Metin çıkarma ve ön işleme
1. Tarama görsellerinden metin çıkarmak için EasyOCR (Devanagari alfabesi için yapılandırılmış) kullanarak belge görkemlerinden Hintçe metin çıkarın (Şekil 2).
2. Çıkarılmış metni normalleştirin, OCR artefaktlarını kaldırarak ve gereksiz sembolleri kaldırın.
3. Cümle segmentasyonu ve tokenizasyon yapın. Metni kelimelere dönüştürün. Önceden tanımlanmış bir Hintçe durak kelime listesiyle durdurma kelimelerini kaldırın.
4. Hintçe uyumlu bir NLP kullanarak Stanza (Hi) kullanarak konuşma kısmı etiketleme ve bağımlılık ayrıştırması gerçekleştirin.
5. BiLSTM-CRF modeli kullanılarak adlandırılmış varlıkları tanımlayın.
6. Bağımlılık kuralı şablonları kullanarak özne-ilişki-nesne üçlülerini çıkar. Anlamlı üçlüler oluşturmak için etiketli dilbilgisel ilişkilerle bir bağımlılık ağacı oluşturun (Şekil 3).

Şekil 2: Hintçe metinden sadece fiil ilişkileriyle basit bir özne-fiil-nesne üçlüsünün çıkarılması. Akış şeması, Hintçe metinden sadece fiil ilişkileriyle basit bir özne-fiil-nesne üçlüsünün çıkarılmasını açıklar. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Şekil 3: Genişletilmiş Fiil Edat İlişkisi. Şekil, üçlü oluşumu tanımlamak için genişletilmiş Fiil Edat ilişkisini göstermektedir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Görsel varlık çıkarımı
1. Her görüntüyü yükleyin ve YOLOv8 nesne algılama modeli kullanarak nesne algılamasını uygulayın (Şekil 4).
2. Tanımlanmış nesnelerin sınırlayıcı kutularını, sınıf etiketlerini ve güven puanlarını çıkarın (Şekil 5).
3. Filtre, 0.50 güven puanlarıyla algılanan nesneleri koruyarak ≥algıladı. Filtrelenen nesneleri görsel varlıklar olarak kaydet (ISTEĞE BAĞLI). Görsel varlıkları sınırlayıcı kutu koordinatlarıyla kaydedin ve bu varlıkların bir listesini oluşturun.

Şekil 4: Nesne Tespiti. Şekil, YOLOv8 kullanılarak nesne algılamasını göstermektedir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Şekil 5: Görsel özellik çıkarımı ve nesne algılanması ve tanımlaması. Şekil, konvolüsyon katmanlar ve YOLOv8 kullanılarak görsel özellik çıkarımını göstermekte, ardından benzerlik puanlarına göre bölge iyileştirmesi ve hizalanmasını göstermektedir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Varlık gömülmesi ve hizalanması
1. XLM-R gömmeleri kullanarak metin varlıkları için bağlamsal gömmeler oluşturun. CLIP-ViT gömütmeleri kullanarak tespit edilen nesneler için görsel gömülemeler oluşturun (Şekil 6).
2. Metin ve görsel gömmeleri paylaşılan bir gizli alana projek edin ve bunları birim uzunluğuna göre normalize edin.
3. Her metin ve görsel gömülü çifti arasında kosinüs benzerliğini hesaplayın. Benzerlik önceden tanımlanmış eşik τ ≥ olduğunda varlıkları hizalamak (varsayılan τ = 0.65). Hizalanmış metin-görüntü varlık çiftlerinin bir listesini oluşturun.

Şekil 6: Görsel nesne tespiti ve POS etiketleri birleşimi. Şekil, görsel nesne algılama ve POS etiketlerinin bilgi grafiği üçlü çıkarımı için birleşmesini göstermektedir. YOLO ve CIFAR-100, çoklu modal hizalanmayı gösteren nesneleri belirler. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Üçlü çıkarma
1. Özne-fiil-nesne yapılarını eşleyen bağımlılık kuralları kullanarak metin üçlülerini çıkarın.
2. Görsel ilişkileri mekânsal yakınlık ve birlikte oluşma kuralları kullanarak türetin.
3. Hizalanmış metin ve görsel varlıkları ilişki etiketleri kullanarak birbirine bağlayarak multimodal üçlemeler oluşturun. Üçlüleri sözdizimsel ve anlamsal tutarlılık açısından doğrulayın.
Bilgi grafiği yapısı
1. Hizalanmış varlıkları RDF uyumlu üçlülere dönüştürün. Metin ve görsel üçlüleri birleşik bir grafik haline getirin.
2. Varlıkları düğüm olarak, ilişkileri kenar olarak ekleyin. Multimodal bağlantıları açık predikatlar kullanarak kodlayın. Ortaya çıkan grafiği Neo4j'de (ISTEĞE BAĞLI) depolayın. Şimdi hizalanmış metin-görüntü üçlüleriyle nihai bir multimodal bilgi grafiği oluşturulur.
  NOT: Hintçe görsel belgelerden çoklu modal bilgi grafiği oluşturmak için sistematik bir yaklaşım Şekil 7'de gösterilmiştir.

Şekil 7: Çok modlu bilgi grafiği inşası için boru hattı. Akış şeması VISHAM-KG için gaz boru hatlarını temsil eder. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Bilgi grafiği oluşturması için aşağıdaki sözde kodu kullanın.
Giriş:
D : Hintçe metin-görüntü belgesi seti
τ : Hizalama için benzerlik eşiği
Her belge çiftini (T,I)∈D ön işle
Eğer T taranırsa, OCRPerform tokenizasyonu, lemmatizasyon ve kelime çıkarma ile metni T' çıkarın
POS etiketleme ve bağımlılık ayrıştırmasını Stanza kullanarak uygulayın
YOLOv8 kullanarak nesneleri I içinde tespit edin
Sınırlayıcı kutuları,_{etiketleri L} i ve güven puanlarını > 0.5 çıkar
Gömülme Oluştur
BiLSTM-CRF kullanarak T'den_{E T}adlı varlıkları ayırın
Extract_{visual entities}E V from L_i
XLM-R _{ile E T} metin gömülerini hesaplayın.
Compute visual embeddings E_V with CLIP-ViT
Üçlü Çıkarma ile Varlık Hizalanması
E_T _{x E} V'deki her çift (e_t,e _v) için:
Kosinüs benzerliğini hesapla S = cos(E_{V,E T})
Eşik τ=0.6 Ayarlan
Eğer s≥τ ise, F ayarına üçlü (e_t, has_image,e_v) ekleyin.
T' karakterinden (h,r,t) üçlüleri bağımlılık kuralları kullanılarak çıkarın.
Görsel ilişkileri mekânsal veya başlık tabanlı birlikte oluşmadan türetin.
E_t ve E_v'yi paylaşılan bir gizli uzaya projeksiyon.
Üçlü puanlar alın ve güven eşiğinin üzerindekileri tutun.
Doğrulanmış üçlüler ve varlıklar grafik G'ye ekleyin.
Çıktı: Neo4j'de son KG.

2. Değerlendirme prosedürü

NOT: Hintçe çocuk hikayeleri, VISHAM-KG çerçevesinin değerlendirilmesi için seçilir; çünkü kontrollü, görsel temelli anlatılar ve net varlıklar ve ilişkiler sunar; bu da çok modlu hizalanmanın, grafik yapımının ve çıkarımın güvenilir doğrulanmasını sağlar; alan ölçeğinde uygulanmadan önce. Tüm hiperparametre ayarları Tablo 3'te verilmiştir.

Modül	Hiperparametre	Boyutlar
OCR	Güven eşiği	0.5
Varlık çıkarımı	Gömme boyutu	300
Nesne tespiti	Güven eşiği	0.5
	Giriş görüntü boyutu	640 × 640
Metin gömülmesi	Dil modeli	XLM-R
	Gömme boyutu	768
Görüntü gömme	Vizyon modeli	CLIP-ViT-B/32
	Gömme boyutu	768
Hizalama	Benzerlik metriği	Kosinüs benzerliği
Metin-Görüntü Hizalanması	Kosinüs benzerlik eşiği (τ)	0.6
Bağlantı tahmini	Gömme boyutu	100
	Eğitim dönemleri	50
	Negatif örnekleme	Üniforma
Değerlendirme	Tren–test ayrımı	80 / 20

Tablo 3: Çerçeve için hiperparametre ayarı.

Bileşen	Kont
Belge Görüntüleri	10
Metinsel Varlıklar	186
Görsel Varlıklar	97
Metinden Türetilen İlişkiler	105
Görsel Türetilmiş İlişkiler	41
Metinsel ve görsel üçlüler	312

Tablo 4: Bilgi Grafiği ve üçlü İstatistik.

Veri seti bileşimi ve bölümlendirme
1. Değerlendirme veri seti, her biri açıklayıcı görsellerle birlikte sunulan 10 çocuk hikayesinden oluşmaktadır. 1.2-1.4 adımlarında bahsedilen varlık çıkarma sürecini yürütün. Sonuçlar Tablo 4'te gösterilmiştir.
2. İki grafik varyantı oluşturun: biri yalnızca metin üçlüleri kullanan Metin Bilgi Grafiği (T-KG) ve birleşmiş metin ve görsel üçlemeler kullanan bir diğer Multimodal Bilgi Grafiği (MM-KG).
3. Kontrollü bir değerlendirme sağlamak için, her iki grafik için de aynı veri bölmeleri kullanın.
4. 80:20'de rastgele ayrımlanmış üçlüler olur, bu da grafik oluşturma (eğitim seti) için %80 ve değerlendirme (test seti) için %20 bekletilir. Bu bölünmeyi hem metinsel KG hem de MMKG'ye tutarlı şekilde uygulayın, böylece adil karşılaştırma sağlanır.
Temel ve değerlendirme metrikleri
1. Metinsel KG temel olarak kullanılır. Önerilen çerçeve, VISHAM KG, önerilen yöntemi temsil etmektedir. Her iki grafik için, varlık tanımlayıcıları ve değerlendirme sorgularıyla aynı ontolojiyi kullanın. İki grafik arasındaki tek fark, VISHAM-KG'de görsel varlıkların dahil edilmesidir.
Değerlendirme metrikleri ve bağlantı tahmini
1. Standart bağlantı tahmin^{metrikleri 20}: Ortalama Karşılıklı Sıralama (MRR), Hits@1, Hits@3, Hits@10. Hit@K, doğru varlığın en üst N sırasında yer aldığı vakaların oranı olarak tanımlanır.
2. Her test üçlüsü (kafa, ilişki, kuyruğu) için ya kafa ya da kuyruk varlığını maskeleyin. Tüm aday varlıkları, paylaşılan gömüleme alanında kosinüs benzerliğine göre sıralayın (Tablo 5).

Metinsel Varlık	Görsel Varlık	Kosinüs benzerliği
शेर		0.78
लोमड़ी		0.82

Tablo 5: Metin ve görüntü gömülmeleri arasındaki kosinüs benzerlik puanları.

Yalnızca metin tabanlı gömmeler ve çoklu modal gömmeler (VISHAM-KG) için bağımsız tahminler üretin.
Sonuçları Ortalama Karşılıklı Sıralama (MRR) kullanarak, tüm sorgular boyunca doğru varlığın karşılıklı sıralamalarının^{ortalaması olarak hesaplayın 21}. Tablo 6'yı kullanarak,^{deneyler 22} arasında tutarlılık için tüm sonuçları ondalık formatta ifade edin.

Model	MRR	Hits@1	Hits@3	Hits@10
TransE	0.42	0.21	0.48	0.72
ComplEx	0.47	0.26	0.52	0.74
RotatE	0.51	0.31	0.58	0.74
VISHAM-KG(Metin)	0.49	0.36	0.62	0.76

Tablo 6: Sadece metin tabanlı üçlemelerde bağlantı tahmin performansı.

Metrikleri, eksik bağlantıları geri kazanma konusunda çok modlu bilgi grafiğinin öngörü gücünü doğrulamak için kullanın; bu, Tablo 7'de gösterildiği gibi.

Model	MRR	Hits@1	Hits@3	Hits@10
IKRL	0.46	0.34	0.63	0.72
VisualBERT	0.52	0.35	0.61	0.72
ViLBERT	0.54	0.38	0.64	0.75
VISHAM-KG	0.57	0.41	0.66	0.79

Tablo 7: Çapraz modal üçlü tahmin görevlerinde performans.

Değerlendirme için aşağıdaki sözde kodu kullanın.
Her Bilgi Grafiği varyantı için G∈_{{G T,G} _MM}:
Üçlü Bölünme
Tüm_üçlüler T'yi G'den çıkar.
T'yi rastgele olarak eğitimsetine (%80) ve test setine T_testine (%20) böl.
T_treninde üçlüler kullanarak grafik G_treni oluşturun.
Benzerlik Puanı ve Gömülme
Her test üçlülüğü (h,r,t)∈T_testi için:
Sorgu oluşturmak için başı veya kuyruk varlığını maske yapın (h,r,?) veya (?,r,t).
G_trenindeki varlıklardan aday varlık kümesi C oluşturun.
Her e_c∈ C için S=cos(_{e query,e} _c) gömülü benzerlik puanını hesaplayın.
Tüm aday varlıkları azalan benzerlik puanına göre sıralayın.
Metrik Hesaplama
Her sorgu için doğru varlığın sıralamasını hesaplayın.
Tüm test sorguları boyunca Ortalama Karşılıklı Sıralamayı (MRR) hesaplayın.
Hits@1, Hits@3 ve Hits@10 hesaplayın.
Sadece Metin Amaçlı KG G_{G T} ile Multimodal KG G_MM arasındaki değerlendirme puanlarını karşılaştırın.
Çıktı: Multimodal entegrasyona doğrudan atfedilebilir niteliksel ve nicel sonuçlar sunmak
Modlar arası benzerlik
1. Metin ve görsel gömülmeler arasındaki hizalanmayı değerlendirmek için benzerlik puanlarını hesaplayın. Hem metinsel hem de görsel gömmeleri birim uzunluğa normalleştirerek ölçekte tutarlılık sağlanır. Birincil metrik olarak kosinüs^{benzerliği kullanın 22}.
2. Her metin varlık gömülmesi ve görsel varlık gömülmesi çifti (e_t, e_v) için, benzerlik^{puanı 23} hesaplanın.
  Skor(_{e t,e} _v) = λ · sim_metni(e_t,e _v) + (1-λ) · sim_görsel (e_t,e _v) .
  burada:
  λ∈ [0,1] modalite ağırlıklandırma parametresidir,
  SIM_metin , metin gömülmeleri arasındaki kosinüs benzerliğidir,
  SIM_{görsel görsel} gömmeler arasındaki kosinüs benzerliğidir.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Önerilen VISHAM-KG, bilgi temsili kıyaslama veri setinde yaygın olarak kullanılan benzerlik puanı hesaplaması ve bağlantı tahmin görevleriyle değerlendirilir.

Deneysel kurulum

Oluşturulmuş çok modlu bilgi grafiğini iki belirlenmiş görevle değerlendirin: (i) çapraz modal benzerlik değerlendirmesi ve (ii) bilgi grafiği bağlantı tahmini. Tüm değerlendirmeleri yalnızca protokolün uç noktasında oluşturulan nihai grafik çıktısı üzerinden gerçekleştirin. D...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG çerçevesinin performansı esas olarak üç kritik bileşene dayanır: Devanagari metni için OCR (adım 1.2), Clip-ViT kullanılarak güven temelli görsel nesne algılama (adım 1.3) ve gömüme tabanlı çapraz modal hizalama (adım 1.4). OCR doğruluğu, doğrudan aşağı akımda dilsel ayrıştırma ve varlık çıkarımı etkiler. Bu aşamada ortaya çıkan hatalar ilişki tanımlamasına yol açar ve hizalama hassasiyetini azaltır. Bu etki, Hint'e özgü normalleşme, lemmatizasyon ve bağımlılık temelli kural uy...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yazarlar, bu makalenin yayımlanmasıyla ilgili çıkar çatışması olmadığını belirtmektedir.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
BiLSTM-CRF ve Hint NER Modeli	Özel eğitimli	PyTorch	Adlandırılmış varlık tanıma
CLIP-ViT-B/32	2022-09	OpenAI	Görsel gömülme üretimi
CPU	Intel i9	Intel	Genel hesaplama
EasyOCR	v1.7.1	Jaided AI	Görüntülerden Hintçe metin çıkarımı
GPU	NVIDIA RTX 3090	NVIDIA	Model çıkarım hızlandırması
Hintçe Çocuk Hikayeleri	10 Hikaye	Seçilmiş veri seti	Değerlendirme korpusu
Neo4j	v5.13	Neo4j Inc.	Bilgi grafiği depolama
NumPy	v1.24	NumPy Topluluğu	Sayısal hesaplamalar
Pandalar	v2.0	Pandas Topluluğu	Veri işleme
Python	v3.10	Python Yazılım Vakfı	Boru hattı uygulaması
PyTorch	v2.0	Meta AI	Derin öğrenme çerçevesi
Kıta (Hintçe Model)	v1.6.1	Stanford NLP	POS etiketleme ve bağımlılık ayrıştırma
XLM-R (Baz)	2023-05	HuggingFace	Metin gömme üretimi
YOLOv8	v8.0.208	Ultralitikler	Görsel nesne tespiti

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023).
Ektefaie, Y., et al. Generalized multimodal models for life sciences. Nat Mach Intell. 5 (4), 340-350 (2023).
Exner, P., Nugues, P. Entity extraction: From unstructured text to DBpedia RDF triples. Proc CEUR Workshop. , 58-69 (2012).
Fan, T., Wang, H., Hodel, T. Multimodal knowledge graph construction of Chinese traditional operas and sentiment and genre recognition. J Cultural Heritage. 62, 32-44 (2023).
Fang, Q., Zhang, X., Hu, J., Wu, X., Xu, C. Contrastive multimodal knowledge graph representation learning. IEEE Trans Knowl Data Eng. 35 (9), 8983-8996 (2022).
Fang, Y., Kuan, K., Lin, J., Tan, C., Chandrasekhar, V. Object detection meets knowledge graphs. Proc IJCAI. , 1-8 (2017).
Fensel, D., et al. Introduction: What is a knowledge graph. , Semant WebSpringer. 1-10 (2020).
Ferrada, S., Bustos, B., Hogan, A. IMGpedia: A linked dataset with content-based analysis of Wikimedia images. , Semant WebSpringer. 84-93 (2017).
Gong, D., Wang, D. Z. Extracting visual knowledge from the web with multimodal learning. Proc IJCAI. , 1718-1724 (2017).
Hollink, L., Bedjeti, A., Van Harmelen, M., Elliott, D. A corpus of images and text in online news. Proc LREC. , 1377-1382 (2016).
Jain, P., Darbari, H., Bhavsar, V. C. Vishit: A visualizer for Hindi text. Proc IEEE Conf. , 886-890 (2014).
StoryWeaver: Free multilingual story platform for children. , Pratham Books. https://storyweaver.org.in/en (2025).
Zhu, B., et al. MMIEA: Multimodal interaction entity alignment model for knowledge graphs. Inf Fusion. 100, 101935(2023).
Wang, M., Wang, H., Qi, G., Zheng, Q. Richpedia: A large-scale, comprehensive multimodal knowledge graph. Big Data Res. 22, 100159(2020).
Liu, Y., et al. MMKG: Multimodal knowledge graphs. , Semant WebSpringer. 459-474 (2019).
Liang, W., Meo, P. D., Tang, Y., Zhu, J. A survey of multimodal knowledge graphs: Technologies and trends. ACM Comput Surv. 56 (11), 1-41 (2024).
Troussas, C., Krouska, A., Tselenti, P., Kardaras, D. K., Barbounaki, S. Enhancing personalized educational content recommendation through cosine similarity-based knowledge graphs and contextual signals. Information. 14 (9), 505(2023).
Vats, P., Sharma, N., Sharma, D. K. HKG: A novel approach for low resource Indic languages to automatic knowledge graph construction. ACM Trans Asian Low-Resour Lang Inf Process. , (2023).
Wang, D., et al. MM-transformer: A transformer-based knowledge graph link prediction model that fuses multimodal features. Symmetry. 16 (8), 961(2024).
Wang, Z., Liu, X., Liu, Z., Weng, Y. A link prediction method for multimodal knowledge graphs based on adaptive fusion and modality information enhancement. Neural Netw. 191, 107771(2025).
Huang, S., Cai, Y., Yuan, L., Wang, J. A knowledge-enhanced network for joint multimodal entity-relation extraction. Inf Process Manag. 62 (3), 104033(2025).
Wang, L., Cheng, H., Wang, R., Huang, X. Machining scheme selection of features based on process knowledge graph and improved cosine similarity matching. Machines. 13 (3), 1-20 (2025).
Zhu, J., et al. A novel cosine-derived probability distribution: Theory and data modeling with computer knowledge graph. Alex Eng J. 103, 1-11 (2024).
Li, Z., Tang, J., Mei, T. Deep collaborative embedding for social image understanding. IEEE Trans Pattern Anal Mach Intell. 41 (9), 2070-2083 (2018).
Qian, Y., Pan, L. Leveraging multimodal features for knowledge graph entity alignment based on dynamic self-attention networks. Expert Syst Appl. 228, 120363(2023).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Kural Tabanlı Dilbilimsel Analiz ve Bilgisayar Görüşüne Dayalı Çok Modlu Bilgi Grafikleri

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles