גרפי ידע רב-מודליים המבוססים על ניתוח לשוני מבוסס כללים וראיית מחשב

Preeti Vats; Nonita Sharma; Deepak Kumar Sharma; Alongbar Wary

doi:10.3791/69803

Method Article

גרפי ידע רב-מודליים המבוססים על ניתוח לשוני מבוסס כללים וראיית מחשב

DOI:

10.3791/69803

⸱

April 3rd, 2026

Preeti Vats¹ , Nonita Sharma¹ , Deepak Kumar Sharma¹ , Alongbar Wary¹

¹Indira Gandhi Delhi Technical University for Women

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG היא מסגרת רב-מודלית שבונה גרפים של ידע ממסמכים חזותיים בהינדי על ידי יישור ישויות טקסטואליות וחזותיות. היא משלבת ניתוח לשוני מבוסס כללים עם טכניקות ראייה ממוחשבת ליצירת שלישיות של יחס נושא-אובייקט בהקשרים בשפה הודית דלה משאבים.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

גרף ידע רב-מודלי ויזואלי-סמנטי המיושר להינדי (VISHAM-KG) הוא מסגרת שנועדה לבנות גרפי ידע מולטימודליים עקביים (KGs) ממסמכים ויזואליים בהינדי על ידי יישור שיטתי של ישויות טקסט חזותיות. מטרת מחקר זה היא לשלב ניתוח לשוני מבוסס כללים עם זיהוי עצמים מבוסס ראייה ממוחשבת התומך בייצוג סמנטי מובנה והסקה מבוססת בשפות הודיות דלות משאבים. האלגוריתם המוצע מתחיל בהכנת מסמכים חזותיים בהינדי בעיבוד שפה טבעית (NLP), ואחריהם זיהוי תווים אופטי (OCR) לחילוץ כתב דוואנגארי ועיבוד מוקדם לשוני, הכולל תהליכים שונים כגון טוקניזציה, למטיזציה, תיוג חלקי דיבור וניתוח תלות. במקביל, ישויות ויזואליות מופקות מתמונות באמצעות זיהוי אובייקטים ומסננות באמצעות ספי ביטחון. ישויות טקסטואליות ווויזואליות מוטמעות במרחב סמנטי משותף באמצעות מודל הטרנספורמטור הרב-לשוני XLM-R, יחד עם CLIP-ViT, ומיואמות באמצעות ספי דמיון קוסינוסים. ישויות מיושרות אלו משולבות עם יחסי תלות מבוססי כללים ליצירת שלישיות רב-מודליות. הפרוטוקול מייצר גרף ידע מובנה רב-מודאלי המקודד כשלישייה של נושא-יחסי-אובייקט עם עיגון חזותי מפורש המבוסס על בסיס הידע ההודי. הפלט שיתקבל יתמוך בשאילתות חוצות מודליות, יישור ישויות והסקת גרף ידע למסמכים ויזואליים בהינדי, ויספק מסגרת ניתנת לשכפול לבניית ידע רב-מודלי בהקשרים לשוניים דלי משאבים.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

גרפי ידע (KGs) הם ייצוגים גרפיים סמנטיים מובנים שבהם ישויות מדומלות כצמתים ויחסים כקשתות. היא מאפשרת שליפת ידע יעילה והיגיון הקשרי במגוון יישומים כגון מענה לשאלות, מערכות המלצה וחילוץ מידע¹. בעשור האחרון, מתודולוגיות בניית KG פותחו באופן משמעותי. עם זאת, רוב הגישות הקיימות מיועדות לשפות עשירות במשאבים, אשר מתבססות בעיקר על קורפוסים טקסטואליים^בקנה מידה גדול 2. כתוצאה מכך, שפות דלות משאבים נותרות מיוצגות בחסר, מה שמגביל את היישום של טכנולוגיות מבוססות KG בהקשרים תרבותיים ולשוניים מגוונים³. במקביל, חלק הולך וגדל של מסמכים מהעולם האמיתי – במיוחד בתחומי חינוך, תרבות ומורשת – מכילים מידע חזותי עשיר שאינו נתפס מספיק בשיטות בניית גרף ממוקדות טקסט⁴.

גרפי ידע מולטימודליים (MMKGs) מרחיבים את ה-KGs המסורתיים על ידי שילוב מודאליות לא-טקסטואליות כמו תמונות, אודיו או וידאו, כדי לאפשר ייצוג סמנטי מקורקע⁵. מסגרות MMKG קודמות, כולל IMGpedia, Richpedia ו-ImageGraph, מראות את הערך של קישור מידע חזותי לישויות טקסטואליות לשיפור השאילתות הסמנטיות וההסקה ^6,7,8. למרות ההתקדמות הזו, השיטות הקיימות הן בעיקר ממוקדות באנגלית, תלויות במטא-דאטה אוצרות או במאגרי נתונים סטטיים, ומספקות הנחיות פרוצדורליות מוגבלות לבניית MMKGs ישירות ממסמכים ויזואליים לא מובנים. יתרה מזאת, מסגרות אלו אינן מתמודדות במפורש עם אתגרים הטמונים בשפות דלות משאבים, כגון שגיאות זיהוי תווים אופטי (OCR) ספציפיות לסקריפט, שונות מורפולוגית, ונתונים מוערים דלילים ^9,10^.

מטרת מסגרת זו היא לבצע מתודולוגיה שלב אחר שלב לבניית גרף ידע רב-מודלי ממסמכים ויזואליים בהינדי על ידי יישור שיטתי של ישויות טקסטואליות וחזותיות. המסגרת המוצעת, Visual Semantic Hindi-Hindi-Aligned Multimodal Knowledge Graph (VISHAM-KG), משלבת ניתוח לשוני מבוסס כללים עם ראייה ממוחשבת, המבוססת על חילוץ אובייקטים, כדי לאפשר בניית גרפים דינמית של מסמכים חזותיים. בניגוד לגישות MMKG הקיימות, VISHAM-KG מחלץ ישירות ישויות ויחסים מטקסט ותמונות בהינדי גולמיים, מיישם כללים דקדוקיים מבוססי תלות לזיהוי יחסים, ומבצע יישור ישות חוצה-מודאלי באמצעות ספי דמיון מבוססי הטמעה במקום להסתמך על^11,12 חיצוניים.

VISHAM-KG מיועד למסמכים מאוירים שבהם תוכן טקסטואלי וחזותי קשורים באופן סמנטי, כגון סיפורי ילדים¹³, חומר חינוכי, עיתון¹¹ ונרטיבים מבוססי תרבות. חלק מהמגבלות, כגון תלות באיכות זיהוי תווים אופטי, כיסוי זיהוי אובייקטים וזמינות אוצר מילים ייחודי לתחום, נתקלו במהלך ביצוע המסגרת שהוזכרה. על ידי תיעוד מפורש של כל שלב פרוצדורלי, VISHAM-KG מספק פרוטוקול שניתן לשכפול לבניית גרף ידע רב-מודלי בהקשרים לשוניים דלי משאבים, תוך תמיכה בהיגיון סמנטי מבוסס וניתוח חוצה-מודאלי.

VISHAM-KG שונה מהגישות הקיימות של MMKG בכך שהוא מפיק ישירות ישויות ויחסים מטקסט ותמונות בהינדי לא מובנים; באמצעות ניתוח תלות מבוסס כללים לצורך הפקת יחסים; ויישור ישויות טקסטואליות וחזותיות באמצעות ספי דמיון מבוססי הטמעה במקום מטא-דאטה התואמים ^8,10 (איור 1).

איור 1: מסגרת מקצה לקצה. האיור ממחיש מסגרת מקצה לקצה לידע רב-מודלי - גרף VISHAM-KG. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

פרוטוקול זה חל על מסמכים מאוירים עם תוכן טקסט-תמונה מיושר, כגון חומר חינוכי ונרטיבים תרבותיים. במסגרת זו, YOLOv8 נבחר בשל יעילותו ועמידותו בזיהוי אובייקטים במסמכים ויזואליים. XLM-R נבחר בשל הייצוגים החוצי-לשוניים החזקים שלו, המתאימים היטב לעיבוד טקסט בהינדי במשאבים דלים, ו-CLIP-ViT משמש בשל יכולתו המוכחת בלמידת מרחבי הטמעה חזותיים משותפים, המאפשרים יישור בין-מודאלי יעיל. אך הוא מוגבל על ידי דיוק OCR, כיסוי זיהוי אובייקטים ומגבלות אוצר מילים ספציפיות לתחום.

עבודות קשורות

גרף ידע מסורתי G=(E,R,F) מורכב מישויות E, יחסים R, ושלישיות עובדתיות F, כאשר כל שלישייה היא בצורת (h,r,t)⁸. בהרחבה זו, גרף ידע רב-מודלי (MMKG) משלב ישויות E הקשורות למודאליות לא-טקסטואלית כמו תמונות, אודיו ווידאו¹⁴.

שתי אסטרטגיות עיקריות משמשות ב-MMKGs לייצוג נתונים חזותיים:
כתכונות הקשורות לישויות טקסטואליות
כישויות חזותיות המחוברות דרך קשר מסוים עם הערות

מחקר בולט הוא IMGpedia, שמשפר את נתוני תמונות ויקימדיה על ידי שילוב תיאורים ויזואליים ומדדי דמיון. מודל זה מתמודד עם המגבלות של מאגרי נתונים מסורתיים הכוללים בעיקר מטא-דאטה, ומאפשר שאילתות ויזואליות-סמנטיות והערכת דמיון על ידי קישור תמונות ל-DBpedia Commons⁹.

באופן דומה, MMKG ריצ'פדיה נוספת מתמודדת עם אתגר של גרפים של ידע לא שלם במחקר אקדמי. הוא מאגד 2,883,162 ישויות ויזואליות מוויקיפדיה ו-30,638 ישויות טקסטואליות מוויקידאטה. ריצ'פדיה תומכת בשאילתות ברמת אספקט ומשתמשת בשיטות לחילוץ קשרים סמנטיים מתוכן לא מובנה, כולל אלמנטים של תמונה, טקסט קשור וקישורים¹⁵.

ImageGraph מרחיבה את המחקר הזה על ידי בניית גרף ידע רלציוני המבוסס על מאגר הנתונים FB15K, המועשר ב-829,931 תמונות וכיתובים שזחלו באינטרנט. הוא כולל 14,870 ישויות ו-1,330 סוגי יחסים, המאפשרים שאילתות ויזואליות-קונטקסטואליות ותשובות מדויקות יותר על ידי תמיכה בפרמטרי שאילתה מבוססי מושג¹⁶.

VisualSem הוא גרף ידע רב-לשוני מקיף נוסף שמשלב מידע חזותי וטקסטואלי. הוא כולל 89,896 ישויות, מעל 1.3 מיליון גלוסים, ו-938,100 תמונות. תוכנן ליישומים כמו הגדלת נתונים והארקה, VisualSem משפר את הפירוש הסמנטי בין שפות וניתן לשלב אותו בצורה חלקה בצינורות עיבוד שונים¹.

מספר מודלים של MMKG פותחו גם לתמיכה במשימות כמו חיזוי קישורים, סיווג שלישיות והתאמת ישויות. מודלים אלה מתמודדים עם מגבלות של גרפים חד-מודליים, במיוחד חוסר היכולת שלהם ללכוד את המורכבות של מידע חוצה-מודלי 16,17,18.

ההשוואה הקריטית בין מודלים מבוססי שפה MMKG לבין VISHAM-KG מוצגת בטבלה 1. הוא מתמקד במיוחד בעוצמתן ובמגבלותיהן בהקשר של שפות דלות משאבים כמו הינדי, טמילית או סנסקריט. שיטות אלו לעיתים קרובות מתמקדות בגישה לקורפוסים טקסטואליים איכותיים, הערות לשוניות אמינות ומודלים מאומנים מראש בקנה מידה גדול. גורמים אלו מגבילים את היישום שלהם לשפות דלות משאבים. במיוחד, צינורות התלויים ב-OCR מותאמים לעיתים קרובות לסקריפטים לטיניים ומציגים דיוק מופחת בסקריפטים הודיים, מה שמוביל לחילוץ טקסט רועש או לא שלם. יתרה מזאת, עיבוד מוקדם לשוני, תיוג חלקי דיבור וזיהוי ישויות בשם מאומנים בדרך כלל בשפות עתירות משאבים. הם מראים ביצועים ירודים משמעותית כאשר מיישמים אותן על שפות עשירות מורפולוגית וגמישות תחבירית כמו הינדי.

דגם MMKG	חוזקות	מגבלות בסביבות דלות משאבים
IMGpedia	אינטגרציה של תמונות עם DBpedia	מתמקד רק בתוכן באנגלית
	תומך בשאילתות דמיון חזותי	אין תמיכה בכתבים שאינם לטיניים
		הקשר תרבותי מוגבל לוויזואליות אזורית
ריצ'פדיה	משלב ישויות ויזואליות וטקסטואליות מוויקיפדיה וויקידאטה	ייצוג לקוי של ידע הודי או עממי
ריצ'פדיה	שאילתות ברמת אספקט זמינות	הנחה יישור איכותי, שחסר במאגרי נתונים אזוריים
ImageGraph	KG יחסי עם תמונות וכיתובים	חילוץ ישות ויחסים מכוון לקורפורה אנגלית
ImageGraph	תומך בשאילתות מבוססות טריפלט מורחבת	נכשל בסביבות עם כתוביות דלות או מטא-דאטה חסרה
VisualSem	תמיכה רב-לשונית	ייצוג לקוי של שפות אסייתיות דלות משאבים
VisualSem	שימושי בצינורות סמנטיים עצביים	אין תמיכה בדוואנגארי או בסמנטיקה חזותית מבוססת תרבות
VISHAM-KG	KG רלציוני עם תמונות בשפות הודיות	תלוי בשפה
VISHAM-KG	צינורות סמנטיים לתחביר עשיר מורפולוגית	זה תלוי בתגי POS שונים של שפות שונות.

טבלה 1: השוואה ביקורתית של MMKGs עם מגבלות בשפות דלות משאבים.

מודלים קיימים של MMKG מסתמכים על גרפים של ידע סטטי, ולא מסתגלים להקשרים דינמיים בעולם האמיתי שבהם מתפתחים סוגי ישויות ואסוציאציות חדשים בעקבות ההכשרה במערך נתונים יחיד. לכן חשוב לפתח מודלים עם יכולות דינמיות¹⁶. המגבלות הבאות נמצאות בהקשר זה: שימוש שגוי בנתונים טקסטואליים בפעילויות ויזואליות כמו זיהוי אובייקטים, חילוץ והערות; פיתוח שיטות ניתנות להרחבה לבניית גרפי ידע רב-מודליים ממקורות הטרוגניים; ושילוב מידע הקשרי בגרפי ידע רב-מודליים לשיפור ההבנה והפרשנות.

בתנאים אלו, VISHAM-KG שונה מהגישות הקודמות בכך שהוא משתמש בטכניקות חילוץ חזותי מתקדמות להגדרת צמתים ויחסים ישירות ממסמכים חזותיים. הוא משלב שלבי עיבוד טקסט סטנדרטיים כגון טוקניזציה, הסרת מילים עצירה, ותגית חלקי דיבור עם טכניקות גרף סמנטיות למבנה הידע המופק. על ידי מיזוג ראיית מחשב ואונטולוגיה, המערכת מציעה מספר יתרונות¹⁹: גמישות מוגברת, המאפשרת לבסיס הידע להתפתח בהתאם לצרכים ספציפיים ליישום; שיפור הייצוג הסמנטי התומך באינטרופרביליות בין מערכות; והסקה ושחזור סמנטי טובים יותר, המאפשרים שיפור בסיס ידע ברמת ההקשר.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

אין צורך באישור אתי לפרוטוקול זה, שכן הוא עושה שימוש בלעדית בנתונים חזותיים וטקסטואליים, לא אנושיים ורגישים לציבור. טבלה 2 מספקת את כל הכלים והטכניקות יחד עם התלות שלהם. כל קוד המקור, קבצי התצורה והסקריפטים הנדרשים לשחזור צינור בניית גרף ידע רב-מודלי זמינים במאגר GitHub ציבורי (preeti017phdit22-wq/VISHAM_KG.). המאגר כולל הוראות התקנה ומפרטי תלות כדי להקל על השחזור.

מודול	דגם / כלי	גרסה	מסגרת	מטרה
OCR	EasyOCR	v1.7.1	פייטורץ'	חילוץ טקסט בהינדי
POS + ניתוח תלות	סטאנזה (היי)	v1.6.1	פייטורץ'	ניתוח לשוני
NER	BiLSTM-CRF	הכשרה מותאמת אישית	פייטורץ'	הכרה בישויות בהינדי
זיהוי עצמים	YOLOv8	v8.0.208	אולטרליטיקה	חילוץ ישות חזותי
הטמעות-טקסט	בסיס XLM-R	2023-05	חיבוק פנים	קידוד טקסט רב-לשוני
הטמעות ויזואליות	CLIP-ViT-B/32	2022-09	OpenAI	קידוד תמונה
אחסון גרפים	Neo4j	v5.13	Neo4j	בניית KG
דמיון	דמיון לקוסינוס	–	NumPy	יישור חוצה-מודלי

טבלה 2: כלים וטכניקות ששימשו בכל שלב בבניית VISHAM-KG.

1. בניית גרף ידע

הכנת נתונים
1. אסוף 10 מסמכי סיפור ילדים מהמקורות הנזכרים ^11,13. אשר את זמינות מסמכי התמונה לכל מסמך.
2. אחסן כל מסמך כיחידה מובנית המכילה קבצי תמונה (PNG או JPG) וטקסט הינדי מתאים.
3. הקצה מזהה מסמך ייחודי שמקשר כל תמונה לטקסט המשויך לה.
חילוץ טקסט ועיבוד מוקדם
1. חילוץ טקסט מתמונות סרוקות באמצעות EasyOCR (מוגדר לכתב דוואנאגארי) כדי להפיק טקסט בהינדי מתמונות מסמך (איור 2).
2. נרמל טקסט שחולץ על ידי הסרת ארטיפקטים של OCR והסרת סמלים מיותרים.
3. בצע סגמנטציה וטוקניזציה של משפטים. הפוך את הטקסט למילים. הסר מילות עצירה באמצעות רשימת מילות עצירה מוגדרת מראש בהינדי.
4. בצע תיוג חלקי דיבור וניתוח תלות באמצעות NLP תואם הינדי באמצעות Stanza (Hi).
5. זיהוי ישויות עם שם באמצעות מודל BiLSTM-CRF.
6. חלץ שלישיות נושא-יחסי-אובייקט באמצעות תבניות כלל תלות. יצר עץ תלות עם יחסים דקדוקיים מסומנים לבניית שלישיות משמעותיות (איור 3).

איור 2: חילוץ של שלישיית נושא-פועל-מושא פשוטה מטקסט הינדי באמצעות יחסי פועל בלבד. תרשים הזרימה מתאר חילוץ של שלישיית נושא-פועל-מושא פשוטה מטקסט הינדי באמצעות יחסי פועל בלבד. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 3: יחס מילת יחס מורחבת בין הפועל. האיור ממחיש את הקשר המורחב של מילת הפועל לזיהוי יצירת השלישייה. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

חילוץ ישות חזותי
1. טענו כל תמונה והחלו זיהוי אובייקטים באמצעות מודל זיהוי האובייקטים YOLOv8 (איור 4).
2. חלצו תיבות הגבול, תוויות מחלקות וציוני ביטחון של אובייקטים מזוהים בתמונה (איור 5).
3. סינון אובייקטים שזוהו על ידי שמירת זיהויים עם ציוני ביטחון ≥ 0.50. רשם אובייקטים מסוננים כישויות ויזואליות (אופציונלי). שמור ישויות ויזואליות עם קואורדינטות תיבות גבולות ויצר רשימה של ישויות אלו.

איור 4: זיהוי עצמים. האיור ממחיש זיהוי עצמים באמצעות YOLOv8. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 5: חילוץ תכונות ויזואליות וזיהוי וזיהוי אובייקטים. התרשים ממחיש חילוץ תכונות ויזואלי באמצעות שכבות קונבולוציוניות ו-YOLOv8, ואחריו שיפור ויישור אזורים בהתבסס על ציוני דמיון. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

הטמעה ויישור של ישויות
1. יצירת הטמעות הקשריות לישויות טקסטואליות באמצעות הטמעות XLM-R. יצירת הטמעות ויזואליות לאובייקטים שזוהו באמצעות הטמעות CLIP-ViT (איור 6).
2. להקרין טקסט והטמעות חזותיות למרחב סמוי משותף ונרמל אותם לאורך יחידה.
3. חשב דמיון קוסינוסי בין כל זוג הטמעה טקסטואלית וחזותית. יישור ישויות כאשר הדמיון ≥ סף מוגדר מראש τ (ברירת מחדל τ = 0.65). הפיק רשימה של זוגות ישויות טקסט-תמונה מיושרים.

איור 6: מיזוג זיהוי אובייקטים ויזואליים ותגיות POS. התרשים ממחיש זיהוי אובייקטים חזותי ותוויות POS מיזוג ליצירת שלישיות בגרף ידע. YOLO ו-CIFAR-100 מזהים אובייקטים המפגינים יישור רב-מודלי. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

חילוץ טריפלט
1. חלץ שלישיות טקסטואליות באמצעות כללי תלות שממפים מבני נושא-פועל-מושא (נושא-פועל-אובייקט).
2. לגזור קשרים חזותיים באמצעות קרבה מרחבית וכללי הופעה משותפת.
3. יצירת שלישיות מולטימודליות על ידי קישור ישויות טקסטואליות וחזותיות מיושרות באמצעות תוויות יחסים. אימות של שלישייה לעקביות תחבירית וסמנטית.
בניית גרף ידע
1. המרו ישויות מיושרות לשלישיות תואמות RDF. משלבים שלישיות טקסטואליות ווויזואליות לגרף מאוחד.
2. הכנס ישויות כצמתים ויחסים כקשתות. קידוד קישורים מולטימודליים באמצעות פרדיקטים מפורשים. שמור את הגרף המתקבל ב-Neo4j (אופציונלי). כעת נוצר גרף ידע רב-מודלי סופי עם שלישיות טקסט-תמונה מיושרות.
  הערה: גישה שיטתית לבניית גרף ידע רב-מודלי מתוך מסמכים ויזואליים בהינדי מוצגת באיור 7.

איור 7: צינור לבניית גרף ידע רב-מודלי. תרשים הזרימה מייצג צינורות עבור VISHAM-KG. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

השתמש בקוד המדומה למטה לבניית גרף ידע.
קלט:
D : סט של מסמך טקסט-תמונה בהינדי
τ : סף דמיון ליישור
עיבוד מוקדם של כל זוג מסמכים (T,I)∈D
אם T נסרקת, חלץ את הטקסט T' באמצעות טוקניזציה של OCRPerform, למטיזציה ועצירת הסרת מילים
יישם תיוג POS וניתוח תלות באמצעות Stanza
זיהוי עצמים ב-I באמצעות YOLOv8
חילוץ קופסאות הגבול, תוויות L_i וציוני ביטחון > 0.5
יצירת הטמעה
זיהוי ישויות בשם E_Tמ-T' באמצעות BiLSTM-CRF
חילוץ ישויות חזותיות E_Vמ-L_i
חשב הטמעות טקסטואליות E_T עם XLM-R.
חשב הטבעות ויזואליות E_V עם CLIP-ViT
יישור ישות עם חילוץ שלישייה
לכל זוג (e_t,e _v) ב-E_T x E_V:
חשב דמיון קוסינוס S = cos(E_V,E _T)
הגדרת סף τ=0.6
אם s≥τ, מוסיפים טריפלט (e_t, has_image,e_v) כדי להגדיר F.
חלץ שלישיות (h,r,t) מ-T' באמצעות כללי תלות.
להפיק קשרים חזותיים מהופעה מבנית מרחבית או מבוססת כיתוב.
פרויקט E_t ו-E_v לתוך מרחב סמוי משותף.
ציון שלישייה ושמור על אלו שמעל סף הביטחון.
הוסף שלישיות וישויות מאומתות לגרף G.
פלט: KG סופי ב-Neo4j.

2. הליך הערכה

הערה: סיפורי ילדים בהינדי נבחרים להערכת מסגרת VISHAM-KG משום שהם מספקים נרטיבים מבוקרים, מבוססי חזות, עם ישויות ויחסים ברורים, המאפשרים אימות אמין של יישור רב-מודלי, בניית גרפים והסקה לפני פריסה בקנה מידה תחומי. כל הגדרות ההיפרפרמטרים מוצגות בטבלה 3.

מודול	היפרפרמטר	ממדים
OCR	סף ביטחון	0.5
חילוץ ישות	ממד הטמעה	300
זיהוי אובייקטים	סף ביטחון	0.5
	גודל תמונת קלט	640 × 640
הטמעת טקסט	מודל שפה	XLM-R
	ממד הטמעה	768
הטמעת תמונה	מודל הראייה	CLIP-ViT-B/32
	ממד הטמעה	768
יישור	מדד דמיון	דמיון בקוסינוס
יישור טקסט-תמונה	סף דמיון לקוסינוס (τ)	0.6
חיזוי קישור	ממד הטמעה	100
	תקופות האימון	50
	דגימה שלילית	מדים
הערכה	פיצול רכבת–מבחן	80 / 20

טבלה 3: הגדרת היפרפרמטרים למסגרת.

רכיב	רוזן
תמונות מסמכים	10
ישויות טקסטואליות	186
ישויות ויזואליות	97
יחסים שמקורם בטקסט	105
יחסים נגזרים חזותית	41
שלישיות טקסטואליות וחזותיות	312

טבלה 4: גרף ידע וסטטיסטיקות של שלישייה.

הרכב ומחלקת מערכי נתונים
1. מאגר הנתונים להערכה כולל 10 סיפורי ילדים, שכל אחד מהם מלווה בתמונות מאיירות. בצע את תהליך חילוץ הישות שהוזכר בשלבים 1.2-1.4. התוצאות מוצגות בטבלה 4.
2. בנה שני גרסאות גרפיות: גרף ידע טקסטואלי בלבד (T-KG) המשתמש רק בשלישיות טקסטואליות, וגרם ידע רב-מודלי נוסף (MM-KG) המשתמש בשלישיות טקסטואליות וחזותיות משולבות.
3. כדי להבטיח הערכה מבוקרת, עבור שני הגרפים, יש להשתמש בחלוקות נתונים זהות.
4. שלישיות שחולקו באקראי ב-80:20, כלומר 80% לבניית גרף (סט אימון) ו-20% נשמרים להערכה (סט בדיקה). יש ליישם את הפיצול הזה באופן עקבי גם על KG טקסטואלי וגם על MMKG כדי להבטיח השוואה הוגנת.
בסיס ומדדי הערכה
1. ה-KG הטקסטואלי משמש כקו הבסיס. המסגרת המוצעת, VISHAM KG, מייצגת את השיטה המוצעת. לשני הגרפים, השתמשו באונטולוגיה זהה עם מזהי ישויות ושאילתות הערכה. ההבדל היחיד בין שני הגרפים הוא הכללת ישויות חזותיות ב-VISHAM-KG.
מדדי הערכה וחיזוי קישור
1. השתמש במדדי חיזוי הקישורים^{הסטנדרטיים 20}: דירוג הפכי ממוצע (MRR), Hits@1, Hits@3, Hits@10. Hit@K, מוגדר כשיעור המקרים שבהם הישות הנכונה מופיעה בדירוגים N הראשונים.
2. לכל שלישיית בדיקה (ראש, יחס, זנב), מסתיר את ישות הראש או הזנב. דרג את כל הישויות המועמדות על פי דמיון קוסינוס במרחב ההטמעה המשותף (טבלה 5).

ישות טקסטואלית	ישות ויזואלית	דמיון לקוסינוס
शेर		0.78
लोमड़ी		0.82

טבלה 5: ציוני דמיון בקוסינוס בין הטבעות טקסט ותמונה.

יצר תחזיות באופן עצמאי עבור הטמעות-טקסט בלבד והטבעות רב-מודליות (VISHAM-KG).
חשב תוצאות באמצעות דירוג ממוצע הופכי (MRR), כממוצע של דירוגים הופכים של הישות הנכונה בכל השאילתות²¹. באמצעות טבלה 6, הביטו את כל התוצאות בפורמט עשרוני לצורך עקביות בין ניסויים²².

מודל	MRR	Hits@1	Hits@3	Hits@10
TransE	0.42	0.21	0.48	0.72
ComplEx	0.47	0.26	0.52	0.74
RotatE	0.51	0.31	0.58	0.74
VISHAM-KG(טקסטואלי)	0.49	0.36	0.62	0.76

טבלה 6: ביצועי חיזוי קישור על שלישיות טקסט בלבד.

השתמשו במדדים כדי לאמת את כוח החיזוי של גרף הידע הרב-מודלי בשחזור קישורים חסרים, כפי שמוצג בטבלה 7.

מודל	MRR	Hits@1	Hits@3	Hits@10
IKRL	0.46	0.34	0.63	0.72
VisualBERT	0.52	0.35	0.61	0.72
וילברט	0.54	0.38	0.64	0.75
VISHAM-KG	0.57	0.41	0.66	0.79

טבלה 7: ביצועים במשימות חיזוי טריפלטים חוצי-מודליות.

השתמשו בקוד המדומה למטה להערכה.
לכל וריאנט של גרף ידע G∈{G_T,G _MM}:
חלוקת טריפלטים
להוציא את כל השלישיות T_כולם מ-G.
חלק_אקראיתאת כל T לסט אימון (80%) ולסט הבדיקה_{של מבחן} T (20%).
בנה_רכבת גרף G באמצעות טריפלטים_ברכבת T.
ציון דמיון והטמעה
לכל_בדיקת שלישייה (h,r,t)∈T:
ישות ראש או זנב מסכה ליצירת שאילתה (h,r,?) או (?,r,t).
יצירת קבוצת ישויות מועמדת C מתוך ישויות_ברכבת G.
חישוב ציון דמיון הטמעה S=cos(e_querry,e _c) עבור כל e_c∈ C.
דרג את כל הישויות המועמדות על בסיס ציון דמיון יורד.
חישוב מטרי
חשב את הדירוג של הישות הנכונה עבור כל שאילתה.
חשב דירוג ממוצע הופכי (MRR) על כל שאילתות המבחן.
חשב Hits@1, Hits@3 ו-Hits@10.
השווה ציוני הערכה בין KG G_T לבין KG G_MM רב-מודלי.
פלט: לספק תוצאות איכותיות וכמותיות המיוחסות ישירות לאינטגרציה מולטימודלית
דמיון בין-מודאלי
1. חשב ציוני דמיון להערכת יישור בין הטמעות טקסטואליות לוויזואליות. נרמל הן את ההטמעות הטקסטואלית והן את ההטבעות הוויזואליות לאורך יחידה כדי להבטיח עקביות בקנה מידה. השתמש בדמיון קוסינוס כמדד ראשוני²².
2. עבור כל זוג (e_t, e_v) של הטמעת ישויות טקסטואליות והטמעת ישות חזותית, חשב את ציון הדמיון²³.
  ציון (e_t,e _v) = λ ·_טקסט סימולטור (e_t,e _v) + (1-λ) ·_{סימולציה ויזואלית} (e_t,e _v).
  כאשר:
  λ∈ [0,1] הוא פרמטר שקילול המודאליות,
  _טקסט סימולציה הוא הדמיון הקוסינוסי בין הטמעות טקסטואליות,
  _{סימולציה ויזואלית} היא הדמיון הקוסינוסי בין ההטמעות הוויזואליות.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ה-VISHAM-KG המוצע מוערך באמצעות חישוב ניקוד דמיון ומשימות חיזוי קישורים המשמשות בדרך כלל במאגר הנתונים של ייצוג ידע.

סידור ניסיוני

הערך את גרף הידע הרב-מודלי שנבנה באמצעות שתי משימות שנקבעו: (i) הערכת דמיון חוצה-מודאלי ו-(ii) חיזוי קישור בגרף ידע. בצע את כל ההערכות אך ורק על פלט הגרף הסופי שנוצר בנקודת הקצה של הפרוטוקול. תקן את כל הזרעים האקראיים לפני ההערכה והחל עיבוד מוקדם זהה בין ניסויים (איור 8).

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

הביצועים של מסגרת VISHAM-KG מבוססים בעיקר על שלושה רכיבים קריטיים: OCR לטקסט דבנאגארי (שלב 1.2), זיהוי אובייקטים חזותי מבוסס ביטחון באמצעות Clip-ViT (שלב 1.3) ויישור חוצה מודלים מבוסס הטמעה (שלב 1.4). דיוק ה-OCR משפיע ישירות על ניתוח הלשוני והחילוץ של ישויות במורד הזרם. השגיאות שהוכנסו בשלב זה מתפשטות לזיהוי יחסים ומפחיתות את דיוק היישור. אפקט זה מתמתן באמצעות נרמול ייחודי בהינדי, למטיזציה ואכיפת כללים מבוססי תלות, שמייצבים ייצוגים של ישויות לפני יצירת השלישייה^{העשירית}

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

המחברים מצהירים כי אין ניגודי עניינים בנוגע לפרסום מאמר זה.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
BiLSTM-CRF ומודל NER הודי	הכשרה מותאמת אישית	פייטורץ'	הכרה בישות בעלת שם
CLIP-ViT-B/32	2022-09	OpenAI	יצירת הטמעה ויזואלית
מעבד	Intel i9	אינטל	חישוב כללי
EasyOCR	v1.7.1	ג'יידד AI	חילוץ טקסט בהינדי מתמונות
GPU	NVIDIA RTX 3090	NVIDIA	האצת הסקת מודל
סיפורי ילדים בהינדי	10 סיפורים	מערך נתונים נבחר	קורפוס הערכה
Neo4j	v5.13	Neo4j Inc.	אחסון גרף ידע
NumPy	v1.24	קהילת NumPy	חישובים נומריים
פנדות	גרסה 2.0	קהילת הפנדות	טיפול בנתונים
פייתון	v3.10	קרן התוכנה של פייתון	מימוש צינור
פייטורץ'	גרסה 2.0	מטא AI	מסגרת למידה עמוקה
סטנזה (מודל הינדי)	v1.6.1	סטנפורד NLP	תיוג POS וניתוח תלות
XLM-R (בסיס)	2023-05	חיבוק פנים	יצירת הטמעת טקסט
YOLOv8	v8.0.208	אולטרליטיקה	זיהוי אובייקטים חזותי

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023).
Ektefaie, Y., et al. Generalized multimodal models for life sciences. Nat Mach Intell. 5 (4), 340-350 (2023).
Exner, P., Nugues, P. Entity extraction: From unstructured text to DBpedia RDF triples. Proc CEUR Workshop. , 58-69 (2012).
Fan, T., Wang, H., Hodel, T. Multimodal knowledge graph construction of Chinese traditional operas and sentiment and genre recognition. J Cultural Heritage. 62, 32-44 (2023).
Fang, Q., Zhang, X., Hu, J., Wu, X., Xu, C. Contrastive multimodal knowledge graph representation learning. IEEE Trans Knowl Data Eng. 35 (9), 8983-8996 (2022).
Fang, Y., Kuan, K., Lin, J., Tan, C., Chandrasekhar, V. Object detection meets knowledge graphs. Proc IJCAI. , 1-8 (2017).
Fensel, D., et al. Introduction: What is a knowledge graph. , Semant WebSpringer. 1-10 (2020).
Ferrada, S., Bustos, B., Hogan, A. IMGpedia: A linked dataset with content-based analysis of Wikimedia images. , Semant WebSpringer. 84-93 (2017).
Gong, D., Wang, D. Z. Extracting visual knowledge from the web with multimodal learning. Proc IJCAI. , 1718-1724 (2017).
Hollink, L., Bedjeti, A., Van Harmelen, M., Elliott, D. A corpus of images and text in online news. Proc LREC. , 1377-1382 (2016).
Jain, P., Darbari, H., Bhavsar, V. C. Vishit: A visualizer for Hindi text. Proc IEEE Conf. , 886-890 (2014).
StoryWeaver: Free multilingual story platform for children. , Pratham Books. https://storyweaver.org.in/en (2025).
Zhu, B., et al. MMIEA: Multimodal interaction entity alignment model for knowledge graphs. Inf Fusion. 100, 101935(2023).
Wang, M., Wang, H., Qi, G., Zheng, Q. Richpedia: A large-scale, comprehensive multimodal knowledge graph. Big Data Res. 22, 100159(2020).
Liu, Y., et al. MMKG: Multimodal knowledge graphs. , Semant WebSpringer. 459-474 (2019).
Liang, W., Meo, P. D., Tang, Y., Zhu, J. A survey of multimodal knowledge graphs: Technologies and trends. ACM Comput Surv. 56 (11), 1-41 (2024).
Troussas, C., Krouska, A., Tselenti, P., Kardaras, D. K., Barbounaki, S. Enhancing personalized educational content recommendation through cosine similarity-based knowledge graphs and contextual signals. Information. 14 (9), 505(2023).
Vats, P., Sharma, N., Sharma, D. K. HKG: A novel approach for low resource Indic languages to automatic knowledge graph construction. ACM Trans Asian Low-Resour Lang Inf Process. , (2023).
Wang, D., et al. MM-transformer: A transformer-based knowledge graph link prediction model that fuses multimodal features. Symmetry. 16 (8), 961(2024).
Wang, Z., Liu, X., Liu, Z., Weng, Y. A link prediction method for multimodal knowledge graphs based on adaptive fusion and modality information enhancement. Neural Netw. 191, 107771(2025).
Huang, S., Cai, Y., Yuan, L., Wang, J. A knowledge-enhanced network for joint multimodal entity-relation extraction. Inf Process Manag. 62 (3), 104033(2025).
Wang, L., Cheng, H., Wang, R., Huang, X. Machining scheme selection of features based on process knowledge graph and improved cosine similarity matching. Machines. 13 (3), 1-20 (2025).
Zhu, J., et al. A novel cosine-derived probability distribution: Theory and data modeling with computer knowledge graph. Alex Eng J. 103, 1-11 (2024).
Li, Z., Tang, J., Mei, T. Deep collaborative embedding for social image understanding. IEEE Trans Pattern Anal Mach Intell. 41 (9), 2070-2083 (2018).
Qian, Y., Pan, L. Leveraging multimodal features for knowledge graph entity alignment based on dynamic self-attention networks. Expert Syst Appl. 228, 120363(2023).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

גרפי ידע רב-מודליים המבוססים על ניתוח לשוני מבוסס כללים וראיית מחשב

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Materials

References

Reprints and Permissions

Tags

Related Articles