الرسوم البيانية المعرفية متعددة الوسائط تعتمد على التحليل اللغوي القائم على القواعد والرؤية الحاسوبية

Preeti Vats; Nonita Sharma; Deepak Kumar Sharma; Alongbar Wary

doi:10.3791/69803

Method Article

الرسوم البيانية المعرفية متعددة الوسائط تعتمد على التحليل اللغوي القائم على القواعد والرؤية الحاسوبية

DOI:

10.3791/69803

⸱

April 3rd, 2026

Preeti Vats¹ , Nonita Sharma¹ , Deepak Kumar Sharma¹ , Alongbar Wary¹

¹Indira Gandhi Delhi Technical University for Women

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG هو إطار متعدد الوسائط يبني رسوم بيانية معرفية من الوثائق البصرية الهندية عن طريق محاذاة الكيانات النصية والبصرية. يجمع بين التحليل اللغوي القائم على القواعد وتقنيات الرؤية الحاسوبية لإنتاج ثلاثيات تتعلق بعلاقات الفاعل-الموضوع في بيئات اللغة الهندية ذات الموارد المنخفضة.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

رسم المعرفة متعدد الوسائط البصري الدلالي المتوافق مع الهندية (VISHAM-KG) هو إطار عمل مصمم لبناء رسوم بيانية معرفية متعددة الوسائط متسقة (KGs) من الوثائق البصرية الهندية من خلال محاذاة كيانات النصوص البصرية بشكل منهجي. تهدف هذه الدراسة إلى دمج التحليل اللغوي القائم على القواعد مع الكشف عن الأشياء المعتمد على الرؤية الحاسوبية الذي يدعم التمثيل الدلالي المنظم والتفكير القائم على الأساس في اللغات الهندية منخفضة الموارد. تبدأ الخوارزمية المقترحة بإعداد مستندات بصرية هندية لمعالجة اللغة الطبيعية (NLP)، تليها التعرف البصري على الحروف (OCR) لاستخراج سكريبتات ديفاناغاري والمعالجة اللغوية المسبقة، والتي تشمل عمليات متنوعة مثل الترميز، والتقنين، وسم أجزاء الكلام، وتحليل التبعيات. بالتوازي، يتم استخراج الكيانات البصرية من الصور باستخدام اكتشاف الكائنات وتصفيتها باستخدام عتبات الثقة. يتم تضمين الكيانات النصية والبصرية في فضاء دلالي مشترك باستخدام نموذج المحول متعدد اللغات XLM-R، إلى جانب CLIP-ViT، ويتم محاذاتها باستخدام عتبات تعتمد على تشابه جيب تمام. يتم دمج هذه الكيانات المتحالفة مع علاقات الاعتماد القائمة على القواعد لتوليد ثلاثيات متعددة الوسائط. ينتج البروتوكول رسما بيانيا متعدد الوسائط منظما للمعرفة مشفرا على شكل ثلاثيات ذات علاقة-كائن مع تأسيس بصري صريح بناء على قاعدة المعرفة الهندية. سيدعم هذا الناتج الاستعلامات متعددة الوسائط، ومحاذاة الكيانات، والتفكير في رسم بياني المعرفة للوثائق البصرية باللغة الهندية، ويوفر إطارا قابلا للتكرار لبناء المعرفة متعددة الوسائط في بيئات لغوية منخفضة الموارد.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

الرسوم البيانية المعرفية (KGs) هي تمثيلات رسومية دلالية منظمة حيث يتم نمذجة الكيانات كعقد والعلاقات كحواف. يتيح ذلك استرجاع المعرفة بكفاءة والتفكير السياقي عبر تطبيقات متنوعة مثل الإجابة على الأسئلة، وأنظمة التوصيات، واستخراج المعلومات¹. على مدار العقد الماضي، تم تطوير منهجيات بناء KG بشكل كبير. ومع ذلك، فإن معظم الأساليب الحالية مصممة للغات غنية بالموارد، والتي تعتمد بشكل رئيسي على مجموعات نصية^{واسعة النطاق 2}. ونتيجة لذلك، تظل اللغات منخفضة الموارد ممثلة تمثيلا ناقصا، مما يقيد تطبيق التقنيات القائمة على الكابات في بيئات متنوعة ثقافيا ولغويا³. بالتوازي، نسبة متزايدة من الوثائق الواقعية - خصوصا في مجالات التعليم والثقافية والتراثية - تحتوي على معلومات بصرية غنية لا تلتقط بشكل كاف بواسطة طرق بناء الرسوم البيانية التي تركز على النص⁴.

توسع الرسوم البيانية المعرفية متعددة الوسائط (MMKGs) القواعد التقليدية من خلال دمج الوسائط غير النصية مثل الصور أو الصوت أو الفيديو لتمكين التمثيل الدلالي المؤرض⁵. تظهر أطر MMKG السابقة، بما في ذلك IMGpedia وRichpedia وImageGraph، قيمة ربط المعلومات البصرية بالكيانات النصية لتحسين الاستعلامات الدلالية والتفكير ^6,7,8. على الرغم من هذه التقدمات، فإن الطرق الحالية تركز إلى حد كبير على اللغة الإنجليزية، وتعتمد على بيانات وصفية منظمة أو مجموعات بيانات ثابتة، وتوفر إرشادات إجرائية محدودة لبناء MMKGs مباشرة من وثائق بصرية غير منظمة. علاوة على ذلك، لا تعالج هذه الأطر صراحة التحديات الكامنة في لغات الموارد المنخفضة، مثل أخطاء التعرف على الحروف البصرية الخاصة بالنصوص، والتغيرات الشكلية (Morphology)، والبيانات المشروحة المتناثرة ^9,10^.

هدف هذا الإطار هو تنفيذ منهجية خطوة بخطوة لبناء رسم بياني معرفي متعدد الوسائط من الوثائق البصرية الهندية من خلال محاذاة الكيانات النصية والبصرية بشكل منهجي. الإطار المقترح، رسم المعرفة متعدد الوسائط البصري والدلالي المصمم للهندية (VISHAM-KG)، يدمج التحليل اللغوي القائم على القواعد مع الرؤية الحاسوبية التي تعتمد على استخراج الأشياء، لتمكين بناء الرسوم البيانية الديناميكية للوثائق البصرية. على عكس طرق MMKG الحالية، يستخرج VISHAM-KG الكيانات والعلاقات مباشرة من النصوص والصور الهندية الخام، ويطبق قواعد نحوية قائمة على التبعية لتحديد العلاقات، ويقوم بمحاذاة الكيانات عبر الوسائط باستخدام عتبات التشابه القائمة على التضمين بدلا من الاعتماد على^11,12 الخارجي.

يهدف VISHAM-KG إلى الوثائق المصورة التي يتم فيها ربط المحتوى النصي والبصري دلاليا، مثل قصص الأطفال¹³، والمواد التعليمية، والصحيفة¹¹، والسرديات ذات الأساس الثقافي. تم مواجهة بعض القيود، مثل الاعتماد على جودة التعرف البصري على الحروف، وتغطية اكتشاف الكائنات، وتوفر المفردات الخاصة بالمجال، أثناء تنفيذ الإطار المذكور. من خلال توثيق كل خطوة إجرائية بشكل صريح، يوفر VISHAM-KG بروتوكولا قابلا للتكرار لبناء رسم بياني معرفي متعدد الوسائط في السياقات اللغوية منخفضة الموارد مع دعم التفكير الدلالي القائم على الأرض والتحليل متعدد الوسائط.

يختلف VISHAM-KG عن الأساليب الحالية ل MMKG من خلال استخراج الكيانات والعلاقات مباشرة من النصوص والصور الهندية غير المهيكلة؛ باستخدام تحليل التبعيات القائم على القواعد لاستخراج العلاقات؛ ومحاذاة الكيانات النصية والبصرية من خلال عتبات التشابه القائمة على التضمين بدلا من مطابقة البيانات الوصفية ^8,10 (الشكل 1).

الشكل 1: إطار عمل من البداية إلى النهاية. يوضح الشكل الإطار الشامل للمعرفة متعددة الوسائط رسم بياني VISHAM-KG. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

ينطبق هذا البروتوكول على الوثائق المصورة التي تحتوي على محتوى نصي وصور متوافق، مثل المواد التعليمية والسرديات الثقافية. في هذا الإطار، يتم اختيار YOLOv8 لكفاءته ومتانته في اكتشاف الكائنات على المستندات المرئية. تم اختيار XLM-R لتمثيلاته القوية عبر اللغات، والتي تناسب معالجة النصوص الهندية منخفضة الموارد، ويستخدم CLIP-ViT لقدرته المثبتة على تعلم مساحات تضمين النصوص البصرية المشتركة، والتي تتيح محاذاة فعالة عبر النقوش. لكنها محدودة بدقة التعرف الضوئي على الحرارة، وتغطية اكتشاف الأشياء، وقيود المفردات الخاصة بالمجال.

أعمال ذات صلة

يتكون رسم المعرفة التقليدي G=(E,R,F) من الكيانات E، والعلاقات R، والثلاثيات الواقعية F، حيث يكون كل ثلاثي على الشكل (h,r,t)⁸. لتوسيع ذلك، يتضمن رسم المعرفة متعدد الوسائط (MMKG) الكيانات E المرتبطة بأنماط غير نصية مثل الصور والصوت والفيديو¹⁴.

تستخدم استراتيجيتان رئيسيتان في MMKG لتمثيل البيانات البصرية:
كصفات مرتبطة بالكيانات النصية
ككيانات بصرية متصلة من خلال علاقة مشروحة محددة

إحدى الدراسات البارزة هي IMGpedia، التي تعزز بيانات صور ويكيميديا من خلال دمج الوصفات البصرية ومقاييس التشابه. يعالج هذا النموذج حدود مجموعات البيانات التقليدية التي تتضمن بشكل أساسي البيانات الوصفية، مما يتيح الاستعلام البصري الدلالي وتقييم التشابه من خلال ربط الصور مع DBpedia Commons⁹.

وبالمثل، يتناول ريتشبيديا MMKG آخر تحدي الرسوم البيانية المعرفية غير المكتملة في البحث الأكاديمي. يجمع 2,883,162 كيانا بصريا من ويكيبيديا و30,638 كيانا نصيا من ويكيداتا. يدعم ريتشبيديا الاستعلام على مستوى الجانب ويستخدم طرقا لاستخراج العلاقات الدلالية من المحتوى غير المنظم، بما في ذلك عناصر الصورة، والنص المرتبط، والروابط^{التشعبية 15}.

توسع ImageGraph هذه الدراسة من خلال بناء رسم بياني للمعرفة العلائقية يعتمد على مجموعة بيانات FB15K، مغذى ب 829,931 صورة وتعليقات زاحفة عبر الويب. يشمل 14,870 كيانا و1,330 نوعا من العلاقات، مما يسمح بالاستعلام البصري والسياقي والحصول على ردود أكثر دقة من خلال دعم معلمات الاستعلام القائم على المفاهيم¹⁶.

VisualSem هو رسم بياني معرفي متعدد اللغات شامل آخر يدمج المعلومات البصرية والنصية. يتألف من 89,896 كيانا، وأكثر من 1.3 مليون نسخة، و938,100 صورة. مصمم لتطبيقات مثل تعزيز البيانات وتأريضها، يعزز VisualSem التفسير الدلالي عبر اللغات ويمكن دمجه بسلاسة في خطوط معالجة مختلفة¹.

تم تطوير عدة نماذج MMKG أيضا لدعم مهام مثل التنبؤ بالروابط، وتصنيف الثلاثيات، ومطابقة الكيانات. تعالج هذه النماذج محدوديات الرسوم البيانية أحادية النمط، لا شيء من قدرتها على التقاط تعقيد المعلومات متعددة الوسائط 16,17,18.

المقارنة الحرجة بين نماذج MMKG القائمة على اللغة مع VISHAM-KG موضحة في الجدول 1. تركز بشكل خاص على قوتها وقيودها في سياق اللغات ذات الموارد المنخفضة مثل الهندية أو التاميل أو السنسكريتية. غالبا ما تفترض هذه الطرق الوصول إلى نصوص مكتوبة عالية الجودة، وتعليقات لغوية موثوقة، ونماذج مدربة مسبقا واسعة النطاق. هذه العوامل تحد من قابليتها للتطبيق على اللغات ذات الموارد المنخفضة. على وجه الخصوص، غالبا ما يتم تحسين خطوط الأنابيب المعتمدة على OCR للنصوص اللاتينية وتظهر دقة أقل في النصوص الهندية، مما يؤدي إلى استخراج نص صاخب أو غير مكتمل. علاوة على ذلك، يتم تدريب المعالجة اللغوية المسبقة، وتصنيف أجزاء الكلام، والتعرف على الكيانات المسماة عادة على لغات ذات موارد عالية. تظهر أداء متدهورا بشكل كبير عند تطبيقها على لغات غنية بالصرفات ومرنة نحويا مثل الهندية.

نموذج MMKG	نقاط القوة	القيود في إعدادات الموارد المنخفضة
IMGpedia	دمج الصور مع DBpedia	يركز فقط على المحتوى الإنجليزي
	يدعم استعلامات التشابه البصري	لا يوجد دعم للكتابة غير اللاتينية
		السياق الثقافي المحدود للصور الإقليمية -
ريتشبيديا	يجمع بين الكيانات البصرية والنصية من ويكيبيديا وويكيداتا	تمثيل غير كاف للمعرفة الهندية أو الشعبية
ريتشبيديا	الاستعلام على مستوى الجانب المتاح	يفترض أن التوافق عالي الجودة، وهو ما يفتقر إلى مجموعات البيانات الإقليمية
إيمججراف	KG العلائقي مع الصور والتعليقات	تم ضبط استخراج الكيان والعلاقات للمجموعات الإنجليزية
إيمججراف	يدعم الاستعلام الموسع القائم على الثلاثيات	يفشل في البيئات التي تحتوي على ترجمات متفرقة أو بيانات وصفية مفقودة
VisualSem	الدعم متعدد اللغات	تمثيل ضعيف للغات الآسيوية ذات الموارد المنخفضة
VisualSem	مفيد في خطوط الأنابيب الدلالية العصبية	لا دعم للدلالات البصرية الديفاناغاري أو الثقافية
فيشام-كي جي	الكابر العلائقي مع صور بلغة هندية	تعتمد على اللغة
فيشام-كي جي	خطوط الأنابيب الدلالية لبناء الكلمات الغني بالصرفات	يعتمد ذلك على وسم نقاط البيع المختلفة للغة المختلفة.

الجدول 1: مقارنة نقدية بين MMKGs مع القيود في اللغات منخفضة الموارد.

تعتمد نماذج MMKG الحالية على رسوم معرفية ثابتة، لا تتكيف مع السياقات الديناميكية الواقعية حيث تتطور أنواع الكيانات والارتباطات الجديدة بسبب تدريبها على مجموعة بيانات واحدة. وهذا يجعل من الضروري تطوير نماذج ذات قدرات ديناميكية¹⁶. توجد القيود التالية في هذا السياق: الاستخدام غير الصحيح للبيانات النصية في الأنشطة البصرية مثل تحديد الكائنات، والاستخراج، والتعليق؛ تطوير طرق قابلة للتوسع لبناء رسوم معرفية متعددة الوسائط من مصادر غير متجانسة؛ ودمج المعلومات السياقية في رسوم معرفية متعددة الوسائط لتحسين الفهم والتفسير.

في هذه الظروف، يختلف VISHAM-KG عن الأساليب السابقة من خلال استخدام تقنيات استخراج بصري متقدمة لتعريف العقد والعلاقات مباشرة من الوثائق البصرية. يجمع بين خطوات معالجة النصوص القياسية مثل الرمزية، وإزالة الكلمات الثابتة، ووضع علامات أجزاء من الكلام مع تقنيات الرسوم البيانية الدلالية لتنظيم المعرفة المستخرجة. من خلال دمج رؤية الحاسوب مع الأنطولوجيا، يقدم النظام عدة مزايا¹⁹: تعزيز القدرة على التكيف، مما يسمح لقاعدة المعرفة بالتطور وفقا لاحتياجات التطبيقات الخاصة؛ تمثيل دلالي محسن يدعم التوافقية عبر الأنظمة؛ واستنتاج واسترجاع دلالي أفضل، مما يتيح تعزيز قاعدة المعرفة على مستوى السياق.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

لا يتطلب هذا البروتوكول موافقة أخلاقية لأنه يستخدم حصريا بيانات بصرية ونصية متاحة للعامة، غير بشرية، وغير حساسة. يوفر الجدول 2 جميع الأدوات والتقنيات مع تبعياتها. جميع الشيفرة المصدرية، وملفات التكوين، والسكريبتات المطلوبة لإعادة إنتاج خط بناء رسم بياني المعرفة متعدد الوسائط متاحة في مستودع GitHub عام (preeti017phdit22-wq/VISHAM_KG.). يتضمن المستودع تعليمات التثبيت ومواصفات التبعية لتسهيل قابلية التكرار.

الوحدة	النموذج / الأداة	النسخة	الإطار	الغرض
OCR	إيزي أو سي آر	v1.7.1	بايتورش	استخراج النص باللغة الهندية
POS + تحليل التبعيات	ستانزا (مرحبا)	v1.6.1	بايتورش	التحليل اللغوي
NER	BiLSTM-CRF	تدريب مخصص	بايتورش	الاعتراف بالكيان باللغة الهندية
اكتشاف الأجسام	YOLOv8	v8.0.208	التحليل الفائق	استخراج الكيان البصري
تضمين النصوص	قاعدة XLM-R	2023-05	وجه العناق	ترميز النصوص متعدد اللغات
التضمينات البصرية	CLIP-ViT-B/32	2022-09	OpenAI	ترميز الصور
تخزين الرسوم البيانية	Neo4j	الإصدار 5.13	Neo4j	بناء KG
التشابه	تشابه جيب تمام	–	نومباي	محاذاة متعددة الوسائط

الجدول 2: الأدوات والتقنيات المستخدمة في كل خطوة في بناء VISHAM-KG.

1. بناء رسم بياني المعرفة

إعداد البيانات
1. اجمع 10 وثائق قصص للأطفال من المصادر المذكورة ^11,13. تأكد من توفر مستندات الصور لكل وثيقة.
2. يخزن كل مستند كوحدة منظمة تحتوي على ملفات الصور (PNG أو JPG) والنص الهندي المقابل.
3. خصص معرف مستند فريد يربط كل صورة بالنص المرتبط بها.
استخراج النصوص والمعالجة المسبقة
1. استخلاص النص من الصور الممسوحة ضوئيا باستخدام EasyOCR (المهيأ لكتابة ديفاناغاري) لاستخراج النص باللغة الهندية من صور المستندات (الشكل 2).
2. تطبيع النص المستخرج عن طريق إزالة تشوهات OCR وإزالة الرموز الزائدة.
3. قم بتقسيم الجمل وترميزها. قم بتحويل النص إلى كلمات. قم بإزالة كلمات التوقف باستخدام قائمة كلمات توقف هندية محددة مسبقا.
4. قم بعمل وسم أجزاء من الكلام وتحليل التبعيات باستخدام معالجة لغوية طبيعية متوافقة مع الهندية باستخدام Stanza (Hi).
5. تحديد الكيانات المسماة باستخدام نموذج BiLSTM-CRF.
6. استخراج الثلاثيات ذات العلاقة-الموضوع باستخدام قوالب قواعد الاعتماد. أنشئ شجرة تبعية بعلاقات نحوية معنونة لبناء ثلاثيات ذات معنى (الشكل 3).

الشكل 2: استخراج ثلاثية بسيطة بين الفاعل-فعل-مفعول بها من نص هندي باستخدام علاقات فعل فقط. يصف مخطط الانسيابيات استخراج ثلاثية بسيطة بين الفاعل-فعل-مفعول به من النص الهندي باستخدام علاقات فعل فقط. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

الشكل 3: علاقة حرف الجر الممتدة بين الفعل. يوضح الشكل علاقة حرف الجر الممتدة بين الفعل لتحديد تكوين الثلاثي. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

استخراج الكيان البصري
1. قم بتحميل كل صورة وتطبيق اكتشاف الكائنات باستخدام نموذج اكتشاف الكائنات YOLOv8 (الشكل 4).
2. استخرج صناديق الإحاطة، وتسميات الفئات، ودرجات الثقة للكائنات المحددة في الصورة (الشكل 5).
3. تصفية الأجسام المكتشفة عن طريق الاحتفاظ بالاكتشافات بدرجات ثقة ≥ 0.50. تسجيل الكائنات المصفاة ككيانات بصرية (اختياري). احفظ الكيانات البصرية مع إحداثيات صندوق محيط وأنشئ قائمة بهذه الكيانات.

الشكل 4: اكتشاف الأجسام. يوضح الشكل اكتشاف الأجسام باستخدام YOLOv8. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

الشكل 5: استخراج الميزات البصرية واكتشاف وتحديد الأشياء. يوضح الشكل استخراج الميزات البصري باستخدام طبقات الالتفاف وYOLOv8، يليه تحسين المنطقة ومحاذاة بناء على درجات التشابه. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

تضمين الكيان ومحاذاته
1. إنشاء تضمينات سياقية للكيانات النصية باستخدام تضمين XLM-R. توليد تضمينات بصرية للأجسام المكتشفة باستخدام تضمينات CLIP-ViT (الشكل 6).
2. قم بعرض التضمينات النصية والبصرية في مساحة كامنة مشتركة وتطبيرها إلى طول الوحدة.
3. احسب تشابه الجيب التمامي بين كل زوج من التضمين النصي والبصري. محاذاة الكيانات عندما يكون التشابه ≥ عتبة محددة مسبقا τ (الافتراضي τ = 0.65). أنشئ قائمة بأزواج الكيانات المحازفة بين النص والصورة.

الشكل 6: دمج اكتشاف الأشياء البصرية وعلامات نقاط البيع (POS). يوضح الشكل اكتشاف الكائنات البصري وعلامات نقاط البيع للدمج لاستخراج ثلاثي رسم بياني المعرفة. يحدد YOLO وCIFAR-100 الأجسام التي تظهر محاذاة متعددة الوسائط. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

استخراج الثلاثي
1. استخرج ثلاثيات نصية باستخدام قواعد التبعية التي تربط هياكل الفاعل-الفعل-المفعول بها.
2. اشتقاق العلاقات البصرية باستخدام قواعد القرب المكاني والتزامن.
3. توليد ثلاثيات متعددة الوسائط عن طريق ربط الكيانات النصية والبصرية المحاذفة باستخدام تسميات العلاقات. تحقق من صحة الثلاثيات من حيث الاتساق النحوي والدلالي.
بناء رسم بياني المعرفة
1. حول الكيانات المتوافقة إلى ثلاثيات متوافقة مع RDF. ادمج الثلاثيات النصية والبصرية في رسم بياني موحد.
2. أدرج الكيانات كعقد والعلاقات كحواف. ترميز الروابط متعددة الوسائط باستخدام مسند صريح. تخزين الرسم البياني الناتج في Neo4j (اختياري). يتم الآن إنشاء رسم بياني معرفي متعدد الوسائط نهائي مع ثلاثيات نصية وصورة محاذية.
  ملاحظة: يظهر الشكل 7 منهج منهجي لبناء رسم بياني معرفي متعدد الوسائط من الوثائق البصرية الهندية.

الشكل 7: خط أنابيب لبناء رسم بياني معرفي متعدد الوسائط. يمثل مخطط التدفق خطوط الأنابيب ل VISHAM-KG. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

استخدم الرمز الزائف أدناه لبناء رسم بياني المعرفة.
المدخلات:
د: مجموعة من وثيقة نصية-صورة هندية
τ : عتبة التشابه للمحاذاة
معالجة كل زوج من الوثائق (T,I)∈D
إذا تم مسح T ضوئيا، استخرج النص T' باستخدام ترميز OCRPerform، والليماتيز، وإيقاف إزالة الكلمات
تطبيق وسم نقاط البيع وتحليل التبعيات باستخدام Stanza
اكتشاف الكائنات في I باستخدام YOLOv8
استخرج صناديق الحدود، والتسميات L_i، ودرجات الثقة > 0.5
توليد التضمين
تحديد الكيانات المسماة E_Tمن T' باستخدام BiLSTM-CRF
استخراج الكيانات البصرية E_Vمن L_i
حساب التضمينات النصية E_T باستخدام XLM-R.
حساب التضمينات البصرية E_V باستخدام CLIP-ViT
محاذاة الكيان مع استخراج الثلاثيات
لكل زوج (e_t,e _v) في E_T x E_V:
احسب تشابه جيب تمام S = لأن (E_V,E _T)
عتبة التعيين τ=0.6
إذا كان s≥τ، أضف الثلاثي (e_t, has_image,e_v) لتعيين F.
استخرج (h,r,t) الثلاثيات من T' باستخدام قواعد التبعية.
اشتقاق العلاقات البصرية من التزامن المكاني أو القائم على الترجمة.
مشروع E_t و_{E v} في مساحة كامنة مشتركة.
سجل ثلاثيات واحتفظ بمن هم فوق عتبة الثقة.
أضف الثلاثيات والكيانات المثبتة إلى الرسم البياني G.
الناتج: الكيلوغرام النهائي في Neo4j.

2. إجراءات التقييم

ملاحظة: يتم اختيار قصص الأطفال باللغة الهندية لتقييم إطار عمل VISHAM-KG لأنها توفر سرديات محكمة ومرسومة بصريا مع كيانات وعلاقات واضحة، مما يتيح التحقق الموثوق من التوافق متعدد الوسائط، وبناء الرسوم البيانية، والاستدلال قبل النشر على نطاق المجال. جميع إعدادات المعاملات الفائقة مذكورة في الجدول 3.

الوحدة	المعاملة الفائقة	الأبعاد
OCR	عتبة الثقة	0.5
استخراج الكيان	بعد التضمين	300
اكتشاف الأجسام	عتبة الثقة	0.5
	حجم الصورة المدخلة	640 × 640
تضمين النص	نموذج اللغة	XLM-R
	بعد التضمين	768
تضمين الصور	نموذج الرؤية	CLIP-ViT-B/32
	بعد التضمين	768
المحاذاة	مقياس التشابه	تشابه جيب التمام
محاذاة النص مع الصورة	عتبة تشابه جيب تمام (τ)	0.6
توقع الروابط	بعد التضمين	100
	فترات التدريب	50
	الأخذ السلبي	الزي الرسمي
التقييم	تقسيم القطار-الاختبار	80 / 20

الجدول 3: إعداد المعاملات الفائقة للإطار.

المكون	الكونت
صور الوثائق	10
الكيانات النصية	186
الكيانات البصرية	97
العلاقات المشتقة من النص	105
العلاقات المشتقة بصريا	41
الثلاثيات النصية والبصرية	312

الجدول 4: رسم المعرفة وإحصائيات التوائم.

تركيب وتقسيم مجموعات البيانات
1. تتكون مجموعة بيانات التقييم من 10 قصص أطفال، كل قصة مصحوبة بصور توضيحية. نفذ عملية استخراج الكيان المذكورة في الخطوات 1.2-1.4. النتائج ممثلة في الجدول 4.
2. قم بإنشاء نسخين بيانيين: رسم بياني معرفي نصي فقط (T-KG) يستخدم فقط ثلاثيات نصية، ورسم معرفتي متعدد الوسائط (MM-KG) يستخدم ثلاثيات نصية وبصرية مدمجة.
3. لضمان تقييم محكم، استخدم تقسيم بيانات متطابقة لكلا الرسمين.
4. تم تقسيم الثلاثيات المستخرجة عشوائيا عند 80:20، أي 80٪ لبناء الرسم البياني (مجموعة تدريب) و20٪ للتقييم (مجموعة الاختبار). طبق هذا التقسيم باستمرار على كل من KG النصي وMMKG لضمان مقارنة عادلة.
الأساس ومقاييس التقييم
1. النص KG يعمل كخط أساس. الإطار المقترح، VISHAM KG، يمثل الطريقة المقترحة. لكلا الرسومين، استخدم أنطولوجيا متطابقة مع معرفات الكيانات واستعلامات التقييم. الفرق الوحيد بين الرسمين هو تضمين الكيانات البصرية في VISHAM-KG.
مقاييس التقييم والتنبؤ بالروابط
1. استخدم مقاييس التنبؤ بالروابط^{القياسية 20}: متوسط الترتيب المتبادل (MRR)، Hits@1، Hits@3، Hits@10. Hit@K، ويعرف بأنه نسبة الحالات التي يظهر فيها الكيان الصحيح في أعلى N مراتب.
2. لكل ثلاثي اختبار (الرأس، العلاقة، الذيل)، قم بإخفاء إما الكيان الرأسي أو الذيل. ترتيب جميع الكيانات المرشحة بناء على تشابه جيب تمام في فضاء التضمين المشترك (الجدول 5).

الكيان النصي	الكيان البصري	تشابه جيب تمام
शेर		0.78
लोमड़ी		0.82

الجدول 5: درجات التشابه في جيب تمام بين تضمين النص والصور.

توليد التنبؤات بشكل مستقل للتضمينات النصية فقط والتضمينات متعددة الوسائط (VISHAM-KG).
احسب النتائج باستخدام متوسط الترتيب المتبادل (MRR)، كمتوسط الرتب المتبادلة للكيان الصحيح عبر جميع الاستعلامات²¹. باستخدام الجدول 6، عرض جميع النتائج بصيغة عشرية لتحقيق الاتساق عبر التجارب²².

النموذج	MRR	Hits@1	Hits@3	Hits@10
ترانس إي	0.42	0.21	0.48	0.72
كومبليكس	0.47	0.26	0.52	0.74
RotatE	0.51	0.31	0.58	0.74
فيشام-كي جي (نصي)	0.49	0.36	0.62	0.76

الجدول 6: أداء توقع الروابط على التوائم النصية فقط.

استخدم المقاييس للتحقق من قوة التنبؤ لرسم المعرفة متعدد الوسائط في استعادة الروابط المفقودة، كما هو موضح في الجدول 7.

النموذج	MRR	Hits@1	Hits@3	Hits@10
IKRL	0.46	0.34	0.63	0.72
VisualBERT	0.52	0.35	0.61	0.72
فيلبرت	0.54	0.38	0.64	0.75
فيشام-كي جي	0.57	0.41	0.66	0.79

الجدول 7: الأداء في مهام التنبؤ بالثلاثيات متعددة النمط.

استخدم الرمز الزائف أدناه للتقييم.
لكل متغير في مخطط المعرفة G∈{G_T,G _MM}:
تقسيم الثلاثيات
استخرج جميع الثلاثيات T_كلها من G.
قسم T_{عشوائيا}إلى مجموعة تدريب (80٪) ومجموعة_{اختبار T (}20٪).
قم ببناء_قطار الرسم البياني G باستخدام الثلاثيات في_قطار T.
درجة التشابه والتضمين
لكل_اختبار ثلاثي (h,r,t)∈T:
كيان رأس أو ذيل قناع لتشكيل استعلام (h,r,?) أو (?,r,t).
توليد مجموعة الكيانات المرشحة C من الكيانات في_قطار G.
احسب درجة التشابه التضمينية S=cos(e query,e_c) لكل e_c∈ C.
قم بترتيب جميع الكيانات المرشحة بناء على درجة التشابه التنازلية.
الحوسبة المترية
احسب رتبة الكيان الصحيح لكل استفسار.
احسب متوسط الترتيب المتبادل (MRR) على جميع استعلامات الاختبار.
احسب Hits@1 و Hits@3 و Hits@10.
قارن درجات التقييم بين KG G_T النصي فقط وKG G_MM متعدد الوسائط.
المخرج: توفير نتائج نوعية وكمية تنسب مباشرة للتكامل متعدد الوسائط
التشابه متعدد الوسائط
1. احسب درجات التشابه لتقييم التوافق بين التضمينات النصية والبصرية. قم بتطبيع كل من التضمين النصي والتضمينات البصرية إلى طول وحدة لضمان الاتساق في الحجم. استخدم تشابه جيب تمام كمقياس أساسي²².
2. لكل زوج (e_t, e_v) من تضمين الكيانات النصية وتضمين الكيانات البصرية، احسب درجة التشابه²³.
  الدرجة (e_t,e _v) = λ ·_نص محاكاة (e_t,e _v) + (1-λ) ·_{محاكاة بصرية} (e_t,e _v).
  حيث:
  λ∈ [0,1] هو معامل وزن النمطية،
  _نص المحاكاة هو التشابه الجيب الواضح بين التضمينات النصية،
  المحاكاة_{البصرية} هي التشابه الواضح بين التضمينات البصرية.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يتم تقييم VISHAM-KG المقترح من خلال حساب درجات التشابه ومهام التنبؤ بالروابط المستخدمة عادة في مجموعة بيانات معيار تمثيل المعرفة.

الإعداد التجريبي

تقييم رسم المعرفة متعدد الوسائط المنشأ باستخدام مهمتين محددتين: (1) تقييم التشابه متعدد الوسائط و(2) توقع رابط الرسم البياني المعرفي. قم بجميع التقييمات حصريا على الرسم البياني النهائي الناتج الناتج في نقطة نهاية البروتوكول. قم بتثبيت جميع البذور العشوائية قبل التقييم وتطبيق معالجة مسبقة متطابقة عبر التجا...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يعتمد أداء إطار عمل VISHAM-KG بشكل أساسي على ثلاثة مكونات حاسمة: التعرف الضوئي على الملاحظة الضوئية للنص الديفاناغاري (الخطوة 1.2)، الكشف البصري القائم على الثقة باستخدام Clip-ViT (الخطوة 1.3)، والمحاذاة متعددة الوسائط القائمة على التضمين (الخطوة 1.4). دقة التعرف الضوئي على الحروف الواضحة تؤثر مباشرة على التحليل اللغوي اللاحق واستخراج الكيانات. الأخطاء التي تدخل في هذه المرحلة تنتقل إلى تحديد العلاقات وتقلل من دقة المحاذاة. يتم التخفيف من هذا التأثير من خلال التطبيع الخاص بالهندية، واللي...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يعلن المؤلفون أنه لا توجد تضارب في المصالح فيما يتعلق بنشر هذه الورقة.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
BiLSTM-CRF ونموذج NER الهندي	تدريب مخصص	بايتورش	الاعتراف بالكيان المسمى
CLIP-ViT-B/32	2022-09	OpenAI	توليد التضمين البصري
وحدة المعالجة المركزية	إنتل i9	إنتل	الحسابات العامة
إيزي أو سي آر	v1.7.1	Jaided AI	استخراج النص باللغة الهندية من الصور
وحدة معالجة الرسوميات	إنفيديا RTX 3090	NVIDIA	تسريع استدلال النموذج
قصص الأطفال الهندية	10 قصص	مجموعة بيانات منسقة	مجموعة التقييم
Neo4j	الإصدار 5.13	Neo4j Inc.	تخزين رسم بياني المعرفة
نومباي	v1.24	مجتمع نومبي	الحسابات العددية
الباندا	v2.0	مجتمع الباندا	التعامل مع البيانات
بايثون	الإصدار 3.10	مؤسسة بايثون للبرمجيات	تنفيذ خط الأنابيب
بايتورش	v2.0	الذكاء الاصطناعي الضخم	إطار التعلم العميق
ستانزا (نموذج هندي)	v1.6.1	ستانفورد NLP	وسم نقاط البيع وتحليل التبعيات
XLM-R (القاعدة)	2023-05	وجه العناق	توليد تضمين النصوص
YOLOv8	v8.0.208	التحليل الفائق	الكشف البصري عن الأجسام

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023).
Ektefaie, Y., et al. Generalized multimodal models for life sciences. Nat Mach Intell. 5 (4), 340-350 (2023).
Exner, P., Nugues, P. Entity extraction: From unstructured text to DBpedia RDF triples. Proc CEUR Workshop. , 58-69 (2012).
Fan, T., Wang, H., Hodel, T. Multimodal knowledge graph construction of Chinese traditional operas and sentiment and genre recognition. J Cultural Heritage. 62, 32-44 (2023).
Fang, Q., Zhang, X., Hu, J., Wu, X., Xu, C. Contrastive multimodal knowledge graph representation learning. IEEE Trans Knowl Data Eng. 35 (9), 8983-8996 (2022).
Fang, Y., Kuan, K., Lin, J., Tan, C., Chandrasekhar, V. Object detection meets knowledge graphs. Proc IJCAI. , 1-8 (2017).
Fensel, D., et al. Introduction: What is a knowledge graph. , Semant WebSpringer. 1-10 (2020).
Ferrada, S., Bustos, B., Hogan, A. IMGpedia: A linked dataset with content-based analysis of Wikimedia images. , Semant WebSpringer. 84-93 (2017).
Gong, D., Wang, D. Z. Extracting visual knowledge from the web with multimodal learning. Proc IJCAI. , 1718-1724 (2017).
Hollink, L., Bedjeti, A., Van Harmelen, M., Elliott, D. A corpus of images and text in online news. Proc LREC. , 1377-1382 (2016).
Jain, P., Darbari, H., Bhavsar, V. C. Vishit: A visualizer for Hindi text. Proc IEEE Conf. , 886-890 (2014).
StoryWeaver: Free multilingual story platform for children. , Pratham Books. https://storyweaver.org.in/en (2025).
Zhu, B., et al. MMIEA: Multimodal interaction entity alignment model for knowledge graphs. Inf Fusion. 100, 101935(2023).
Wang, M., Wang, H., Qi, G., Zheng, Q. Richpedia: A large-scale, comprehensive multimodal knowledge graph. Big Data Res. 22, 100159(2020).
Liu, Y., et al. MMKG: Multimodal knowledge graphs. , Semant WebSpringer. 459-474 (2019).
Liang, W., Meo, P. D., Tang, Y., Zhu, J. A survey of multimodal knowledge graphs: Technologies and trends. ACM Comput Surv. 56 (11), 1-41 (2024).
Troussas, C., Krouska, A., Tselenti, P., Kardaras, D. K., Barbounaki, S. Enhancing personalized educational content recommendation through cosine similarity-based knowledge graphs and contextual signals. Information. 14 (9), 505(2023).
Vats, P., Sharma, N., Sharma, D. K. HKG: A novel approach for low resource Indic languages to automatic knowledge graph construction. ACM Trans Asian Low-Resour Lang Inf Process. , (2023).
Wang, D., et al. MM-transformer: A transformer-based knowledge graph link prediction model that fuses multimodal features. Symmetry. 16 (8), 961(2024).
Wang, Z., Liu, X., Liu, Z., Weng, Y. A link prediction method for multimodal knowledge graphs based on adaptive fusion and modality information enhancement. Neural Netw. 191, 107771(2025).
Huang, S., Cai, Y., Yuan, L., Wang, J. A knowledge-enhanced network for joint multimodal entity-relation extraction. Inf Process Manag. 62 (3), 104033(2025).
Wang, L., Cheng, H., Wang, R., Huang, X. Machining scheme selection of features based on process knowledge graph and improved cosine similarity matching. Machines. 13 (3), 1-20 (2025).
Zhu, J., et al. A novel cosine-derived probability distribution: Theory and data modeling with computer knowledge graph. Alex Eng J. 103, 1-11 (2024).
Li, Z., Tang, J., Mei, T. Deep collaborative embedding for social image understanding. IEEE Trans Pattern Anal Mach Intell. 41 (9), 2070-2083 (2018).
Qian, Y., Pan, L. Leveraging multimodal features for knowledge graph entity alignment based on dynamic self-attention networks. Expert Syst Appl. 228, 120363(2023).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

الرسوم البيانية المعرفية متعددة الوسائط تعتمد على التحليل اللغوي القائم على القواعد والرؤية الحاسوبية

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles