Method Article

الرسوم البيانية المعرفية متعددة الوسائط تعتمد على التحليل اللغوي القائم على القواعد والرؤية الحاسوبية

DOI:

10.3791/69803

April 3rd, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG هو إطار متعدد الوسائط يبني رسوم بيانية معرفية من الوثائق البصرية الهندية عن طريق محاذاة الكيانات النصية والبصرية. يجمع بين التحليل اللغوي القائم على القواعد وتقنيات الرؤية الحاسوبية لإنتاج ثلاثيات تتعلق بعلاقات الفاعل-الموضوع في بيئات اللغة الهندية ذات الموارد المنخفضة.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

رسم المعرفة متعدد الوسائط البصري الدلالي المتوافق مع الهندية (VISHAM-KG) هو إطار عمل مصمم لبناء رسوم بيانية معرفية متعددة الوسائط متسقة (KGs) من الوثائق البصرية الهندية من خلال محاذاة كيانات النصوص البصرية بشكل منهجي. تهدف هذه الدراسة إلى دمج التحليل اللغوي القائم على القواعد مع الكشف عن الأشياء المعتمد على الرؤية الحاسوبية الذي يدعم التمثيل الدلالي المنظم والتفكير القائم على الأساس في اللغات الهندية منخفضة الموارد. تبدأ الخوارزمية المقترحة بإعداد مستندات بصرية هندية لمعالجة اللغة الطبيعية (NLP)، تليها التعرف البصري على الحروف (OCR) لاستخراج سكريبتات ديفاناغاري والمعالجة اللغوية المسبقة، والتي تشمل عمليات متنوعة مثل الترميز، والتقنين، وسم أجزاء الكلام، وتحليل التبعيات. بالتوازي، يتم استخراج الكيانات البصرية من الصور باستخدام اكتشاف الكائنات وتصفيتها باستخدام عتبات الثقة. يتم تضمين الكيانات النصية والبصرية في فضاء دلالي مشترك باستخدام نموذج المحول متعدد اللغات XLM-R، إلى جانب CLIP-ViT، ويتم محاذاتها باستخدام عتبات تعتمد على تشابه جيب تمام. يتم دمج هذه الكيانات المتحالفة مع علاقات الاعتماد القائمة على القواعد لتوليد ثلاثيات متعددة الوسائط. ينتج البروتوكول رسما بيانيا متعدد الوسائط منظما للمعرفة مشفرا على شكل ثلاثيات ذات علاقة-كائن مع تأسيس بصري صريح بناء على قاعدة المعرفة الهندية. سيدعم هذا الناتج الاستعلامات متعددة الوسائط، ومحاذاة الكيانات، والتفكير في رسم بياني المعرفة للوثائق البصرية باللغة الهندية، ويوفر إطارا قابلا للتكرار لبناء المعرفة متعددة الوسائط في بيئات لغوية منخفضة الموارد.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

الرسوم البيانية المعرفية (KGs) هي تمثيلات رسومية دلالية منظمة حيث يتم نمذجة الكيانات كعقد والعلاقات كحواف. يتيح ذلك استرجاع المعرفة بكفاءة والتفكير السياقي عبر تطبيقات متنوعة مثل الإجابة على الأسئلة، وأنظمة التوصيات، واستخراج المعلومات1. على مدار العقد الماضي، تم تطوير منهجيات بناء KG بشكل كبير. ومع ذلك، فإن معظم الأساليب الحالية مصممة للغات غنية بالموارد، والتي تعتمد بشكل رئيسي على مجموعات نصيةواسعة النطاق 2. ونتيجة لذلك، تظل اللغات منخفضة الموارد ممثلة تمثيلا ناقصا، مما يقيد تطبيق التقنيات القائمة على الكابات في بيئات متنوعة ثقافيا ولغويا3. بالتوازي، نسبة متزايدة من الوثائق الواقعية - خصوصا في م....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

لا يتطلب هذا البروتوكول موافقة أخلاقية لأنه يستخدم حصريا بيانات بصرية ونصية متاحة للعامة، غير بشرية، وغير حساسة. يوفر الجدول 2 جميع الأدوات والتقنيات مع تبعياتها. جميع الشيفرة المصدرية، وملفات التكوين، والسكريبتات المطلوبة لإعادة إنتاج خط بناء رسم بياني المعرفة متعدد الوسائط متاحة في مستودع GitHub عام (preeti017phdit22-wq/VISHAM_KG.). يتضمن المستودع تعليمات التثبيت ومواصفات التبعية لتسهيل قابلية التكرار.

الوحدةالنموذج / الأداةالنسخةالإطار<....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يتم تقييم VISHAM-KG المقترح من خلال حساب درجات التشابه ومهام التنبؤ بالروابط المستخدمة عادة في مجموعة بيانات معيار تمثيل المعرفة.

الإعداد التجريبي

تقييم رسم المعرفة متعدد الوسائط المنشأ باستخدام مهمتين محددتين: (1) تقييم التشابه متعدد الوسائط و(2) توقع رابط الرسم البياني المعرفي. قم بجميع التقييمات حصريا على الرسم البياني النهائي الناتج الناتج في نقطة نهاية البروتوكول. قم بتثبيت جميع البذور العشوائية قبل التقييم وتطبيق معالجة مسبقة متطابقة عبر التجا.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يعتمد أداء إطار عمل VISHAM-KG بشكل أساسي على ثلاثة مكونات حاسمة: التعرف الضوئي على الملاحظة الضوئية للنص الديفاناغاري (الخطوة 1.2)، الكشف البصري القائم على الثقة باستخدام Clip-ViT (الخطوة 1.3)، والمحاذاة متعددة الوسائط القائمة على التضمين (الخطوة 1.4). دقة التعرف الضوئي على الحروف الواضحة تؤثر مباشرة على التحليل اللغوي اللاحق واستخراج الكيانات. الأخطاء التي تدخل في هذه المرحلة تنتقل إلى تحديد العلاقات وتقلل من دقة المحاذاة. يتم التخفيف من هذا التأثير من خلال التطبيع الخاص بالهندية، واللي.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يعلن المؤلفون أنه لا توجد تضارب في المصالح فيما يتعلق بنشر هذه الورقة.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
BiLSTM-CRF ونموذج NER الهنديتدريب مخصصبايتورشالاعتراف بالكيان المسمى
CLIP-ViT-B/322022-09OpenAIتوليد التضمين البصري
وحدة المعالجة المركزيةإنتل i9إنتلالحسابات العامة
إيزي أو سي آرv1.7.1Jaided AIاستخراج النص باللغة الهندية من الصور
وحدة معالجة الرسومياتإنفيديا RTX 3090NVIDIAتسريع استدلال النموذج
قصص الأطفال الهندية10 قصصمجموعة بيانات منسقةمجموعة التقييم
Neo4jالإصدار 5.13Neo4j Inc.تخزين رسم بياني المعرفة
نومبايv1.24مجتمع نومبيالحسابات العددية
البانداv2.0مجتمع البانداالتعامل مع البيانات
بايثونالإصدار 3.10مؤسسة بايثون للبرمجياتتنفيذ خط الأنابيب
بايتورشv2.0الذكاء الاصطناعي الضخمإطار التعلم العميق
ستانزا (نموذج هندي)v1.6.1ستانفورد NLPوسم نقاط البيع وتحليل التبعيات
XLM-R (القاعدة)2023-05وجه العناقتوليد تضمين النصوص
YOLOv8v8.0.208التحليل الفائقالكشف البصري عن الأجسام

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
  2. Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Multimodal Knowledge GraphsRule Based Linguistic AnalysisComputer VisionVisual Entity ExtractionHindi Visual DocumentsOptical Character RecognitionDependency ParsingEntity AlignmentMultilingual TransformerKnowledge Graph Reasoning

Related Articles