Method Article

Kural Tabanlı Dilbilimsel Analiz ve Bilgisayar Görüşüne Dayalı Çok Modlu Bilgi Grafikleri

DOI:

10.3791/69803

April 3rd, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG, metin ve görsel varlıkları hizalayarak Hintçe görsel belgelerden bilgi grafikleri oluşturan çok modlu bir çerçevedir. Kural tabanlı dilbilimsel analizi bilgisayar görme teknikleriyle birleştirerek düşük kaynaklı Hint dillerinde özne-ilişki-nesne üçlüleri üretir.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Görsel Anlamsal Hintçe Hizalı Çok Modlu Bilgi Grafiği (VISHAM-KG), görsel-metin varlıklarını sistematik olarak hizalayarak, Hintçe görsel belgelerden tutarlı çok modlu bilgi grafikleri (KG) oluşturmak için tasarlanmış bir çerçevedir. Bu çalışmanın amacı, kural tabanlı dilsel analizi, düşük kaynaklı Hint dillerinde yapılandırılmış anlamsal temsil ve temelli akıl yürütmeyi destekleyen bilgisayar görüşüne dayalı nesne algılamayla birleştirmektir. Önerilen algoritma, Doğal Dil İşleme (NLP) Hintçe görsel belgelerin hazırlanmasıyla başlar, ardından Devanagari yazısı çıkarımı ve dilsel ön işleme için optik karakter tanıma (OCR) gelir; bu süreç tokenizasyon, lemmatizasyon, konuşma parçası etiketleme ve bağımlılık ayrıştırma gibi çeşitli süreçleri içerir. Paralel olarak, görsel varlıklar nesneler algılama yoluyla görüntülerden çıkarılır ve güven eşikleri kullanılarak filtrelenir. Metinsel ve görsel varlıklar, çok dilli transformatör modeli XLM-R ile CLIP-ViT kullanılarak paylaşılan anlamsal bir uzaya gömülür ve kosinüs benzerlik temelli eşikler kullanılarak hizalanır. Bu hizalanmış varlıklar, kural tabanlı bağımlılık ilişkileriyle birleştirilerek multimodal üçlemeler oluşturulur. Protokol, Hindistan bilgi tabanına dayanan açık görsel temele sahip özne-ilişki-nesne üçlüleri olarak kodlanmış yapılandırılmış çok modlu bir bilgi grafiği üretir. Bu çıktı, Hintçe görsel belgeler için çapraz modal sorgulama, varlık hizalanması ve bilgi grafiği akıl yürütmeyi destekleyecek ve düşük kaynaklı dilsel ortamlarda çoklu modal bilgi inşası için tekrarlanabilir bir çerçeve sağlayacaktır.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bilgi grafikleri (KG'ler), varlıkların düğüm olarak modellendiği, ilişkilerin kenar olarak modellendiği yapılandırılmış anlamsal grafiksel temsillerdir. Soru yanıtlama, öneri sistemleri ve bilgi çıkarma gibi çeşitli uygulamalarda verimli bilgi bulgusu ve bağlamsal akılyürütmeyi sağlar 1. Son on yılda, KG yapım metodolojileri önemli ölçüde geliştirilmiştir. Ancak, mevcut yaklaşımların çoğu, ağırlıklı olarak büyük ölçekli metinkorpusları 2'ye dayanan kaynak açısından zengin diller için tasarlanmıştır. Sonuç olarak, düşük kaynaklı diller az temsil edilmeye devam eder ve KG tabanlı teknolojilerin kültürel ve dilsel olarak çe....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu protokol için etik onay gerekmez çünkü yalnızca kamuya açık olan, insan olmayan, hassas olmayan görsel ve metinsel verileri kullanır. Tablo 2 , tüm araçlar ve tekniklerle birlikte bağımlılıklarını sunar. Multimodal bilgi grafiği oluşturma boru hattını yeniden üretmek için gereken tüm kaynak kodu, yapılandırma dosyaları ve betikler bir GitHub deposunda (preeti017phdit22-wq/VISHAM_KG.) mevcuttur. Depo, tekrarlanabilirliği kolaylaştırmak için kurulum talimatları ve bağımlılık spesifikasyonları içerir.

Modül

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Önerilen VISHAM-KG, bilgi temsili kıyaslama veri setinde yaygın olarak kullanılan benzerlik puanı hesaplaması ve bağlantı tahmin görevleriyle değerlendirilir.

Deneysel kurulum

Oluşturulmuş çok modlu bilgi grafiğini iki belirlenmiş görevle değerlendirin: (i) çapraz modal benzerlik değerlendirmesi ve (ii) bilgi grafiği bağlantı tahmini. Tüm değerlendirmeleri yalnızca protokolün uç noktasında oluşturulan nihai grafik çıktısı üzerinden gerçekleştirin. D.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG çerçevesinin performansı esas olarak üç kritik bileşene dayanır: Devanagari metni için OCR (adım 1.2), Clip-ViT kullanılarak güven temelli görsel nesne algılama (adım 1.3) ve gömüme tabanlı çapraz modal hizalama (adım 1.4). OCR doğruluğu, doğrudan aşağı akımda dilsel ayrıştırma ve varlık çıkarımı etkiler. Bu aşamada ortaya çıkan hatalar ilişki tanımlamasına yol açar ve hizalama hassasiyetini azaltır. Bu etki, Hint'e özgü normalleşme, lemmatizasyon ve bağımlılık temelli kural uy.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yazarlar, bu makalenin yayımlanmasıyla ilgili çıkar çatışması olmadığını belirtmektedir.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
BiLSTM-CRF ve Hint NER ModeliÖzel eğitimliPyTorchAdlandırılmış varlık tanıma
CLIP-ViT-B/322022-09OpenAIGörsel gömülme üretimi
CPUIntel i9IntelGenel hesaplama
EasyOCRv1.7.1Jaided AIGörüntülerden Hintçe metin çıkarımı
GPUNVIDIA RTX 3090NVIDIAModel çıkarım hızlandırması
Hintçe Çocuk Hikayeleri10 HikayeSeçilmiş veri setiDeğerlendirme korpusu
Neo4jv5.13Neo4j Inc.Bilgi grafiği depolama
NumPyv1.24NumPy TopluluğuSayısal hesaplamalar
Pandalarv2.0Pandas TopluluğuVeri işleme
Pythonv3.10Python Yazılım VakfıBoru hattı uygulaması
PyTorchv2.0Meta AIDerin öğrenme çerçevesi
Kıta (Hintçe Model)v1.6.1Stanford NLPPOS etiketleme ve bağımlılık ayrıştırma
XLM-R (Baz)2023-05HuggingFaceMetin gömme üretimi
YOLOv8v8.0.208UltralitiklerGörsel nesne tespiti

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
  2. Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Multimodal Knowledge GraphsRule Based Linguistic AnalysisComputer VisionVisual Entity ExtractionHindi Visual DocumentsOptical Character RecognitionDependency ParsingEntity AlignmentMultilingual TransformerKnowledge Graph Reasoning

Related Articles