Method Article

גרפי ידע רב-מודליים המבוססים על ניתוח לשוני מבוסס כללים וראיית מחשב

DOI:

10.3791/69803

April 3rd, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

VISHAM-KG היא מסגרת רב-מודלית שבונה גרפים של ידע ממסמכים חזותיים בהינדי על ידי יישור ישויות טקסטואליות וחזותיות. היא משלבת ניתוח לשוני מבוסס כללים עם טכניקות ראייה ממוחשבת ליצירת שלישיות של יחס נושא-אובייקט בהקשרים בשפה הודית דלה משאבים.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

גרף ידע רב-מודלי ויזואלי-סמנטי המיושר להינדי (VISHAM-KG) הוא מסגרת שנועדה לבנות גרפי ידע מולטימודליים עקביים (KGs) ממסמכים ויזואליים בהינדי על ידי יישור שיטתי של ישויות טקסט חזותיות. מטרת מחקר זה היא לשלב ניתוח לשוני מבוסס כללים עם זיהוי עצמים מבוסס ראייה ממוחשבת התומך בייצוג סמנטי מובנה והסקה מבוססת בשפות הודיות דלות משאבים. האלגוריתם המוצע מתחיל בהכנת מסמכים חזותיים בהינדי בעיבוד שפה טבעית (NLP), ואחריהם זיהוי תווים אופטי (OCR) לחילוץ כתב דוואנגארי ועיבוד מוקדם לשוני, הכולל תהליכים שונים כגון טוקניזציה, למטיזציה, תיוג חלקי דיבור וניתוח תלות. במקביל, ישויות ויזואליות מופקות מתמונות באמצעות זיהוי אובייקטים ומסננות באמצעות ספי ביטחון. ישויות טקסטואליות ווויזואליות מוטמעות במרחב סמנטי משותף באמצעות מודל הטרנספורמטור הרב-לשוני XLM-R, יחד עם CLIP-ViT, ומיואמות באמצעות ספי דמיון קוסינוסים. ישויות מיושרות אלו משולבות עם יחסי תלות מבוססי כללים ליצירת שלישיות רב-מודליות. הפרוטוקול מייצר גרף ידע מובנה רב-מודאלי המקודד כשלישייה של נושא-יחסי-אובייקט עם עיגון חזותי מפורש המבוסס על בסיס הידע ההודי. הפלט שיתקבל יתמוך בשאילתות חוצות מודליות, יישור ישויות והסקת גרף ידע למסמכים ויזואליים בהינדי, ויספק מסגרת ניתנת לשכפול לבניית ידע רב-מודלי בהקשרים לשוניים דלי משאבים.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

גרפי ידע (KGs) הם ייצוגים גרפיים סמנטיים מובנים שבהם ישויות מדומלות כצמתים ויחסים כקשתות. היא מאפשרת שליפת ידע יעילה והיגיון הקשרי במגוון יישומים כגון מענה לשאלות, מערכות המלצה וחילוץ מידע1. בעשור האחרון, מתודולוגיות בניית KG פותחו באופן משמעותי. עם זאת, רוב הגישות הקיימות מיועדות לשפות עשירות במשאבים, אשר מתבססות בעיקר על קורפוסים טקסטואלייםבקנה מידה גדול 2. כתוצאה מכך, שפות דלות משאבים נותרות מיוצגות בחסר, מה שמגביל את היישום של טכנולוגיות מבוססות KG בהקשרים תרבותיים ולשוניים מגוונים3. במקביל, חלק הולך וגדל של מסמכים מהעולם האמיתי – במיוחד בתחומי חינוך, תרבות ומורשת – מכילים מידע חזותי עשיר שאינ....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

אין צורך באישור אתי לפרוטוקול זה, שכן הוא עושה שימוש בלעדית בנתונים חזותיים וטקסטואליים, לא אנושיים ורגישים לציבור. טבלה 2 מספקת את כל הכלים והטכניקות יחד עם התלות שלהם. כל קוד המקור, קבצי התצורה והסקריפטים הנדרשים לשחזור צינור בניית גרף ידע רב-מודלי זמינים במאגר GitHub ציבורי (preeti017phdit22-wq/VISHAM_KG.). המאגר כולל הוראות התקנה ומפרטי תלות כדי להקל על השחזור.

<....
מודולדגם / כליגרסהמסגרתמטרה

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ה-VISHAM-KG המוצע מוערך באמצעות חישוב ניקוד דמיון ומשימות חיזוי קישורים המשמשות בדרך כלל במאגר הנתונים של ייצוג ידע.

סידור ניסיוני

הערך את גרף הידע הרב-מודלי שנבנה באמצעות שתי משימות שנקבעו: (i) הערכת דמיון חוצה-מודאלי ו-(ii) חיזוי קישור בגרף ידע. בצע את כל ההערכות אך ורק על פלט הגרף הסופי שנוצר בנקודת הקצה של הפרוטוקול. תקן את כל הזרעים האקראיים לפני ההערכה והחל עיבוד מוקדם זהה בין ניסויים (איור 8).

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

הביצועים של מסגרת VISHAM-KG מבוססים בעיקר על שלושה רכיבים קריטיים: OCR לטקסט דבנאגארי (שלב 1.2), זיהוי אובייקטים חזותי מבוסס ביטחון באמצעות Clip-ViT (שלב 1.3) ויישור חוצה מודלים מבוסס הטמעה (שלב 1.4). דיוק ה-OCR משפיע ישירות על ניתוח הלשוני והחילוץ של ישויות במורד הזרם. השגיאות שהוכנסו בשלב זה מתפשטות לזיהוי יחסים ומפחיתות את דיוק היישור. אפקט זה מתמתן באמצעות נרמול ייחודי בהינדי, למטיזציה ואכיפת כללים מבוססי תלות, שמייצבים ייצוגים של ישויות לפני יצירת השלישייההעשירית

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

המחברים מצהירים כי אין ניגודי עניינים בנוגע לפרסום מאמר זה.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
BiLSTM-CRF ומודל NER הודיהכשרה מותאמת אישיתפייטורץ'הכרה בישות בעלת שם
CLIP-ViT-B/322022-09OpenAIיצירת הטמעה ויזואלית
מעבדIntel i9אינטלחישוב כללי
EasyOCRv1.7.1ג'יידד AIחילוץ טקסט בהינדי מתמונות
GPUNVIDIA RTX 3090NVIDIAהאצת הסקת מודל
סיפורי ילדים בהינדי10 סיפוריםמערך נתונים נבחרקורפוס הערכה
Neo4jv5.13Neo4j Inc.אחסון גרף ידע
NumPyv1.24קהילת NumPyחישובים נומריים
פנדותגרסה 2.0קהילת הפנדותטיפול בנתונים
פייתוןv3.10קרן התוכנה של פייתוןמימוש צינור
פייטורץ'גרסה 2.0מטא AIמסגרת למידה עמוקה
סטנזה (מודל הינדי)v1.6.1סטנפורד NLPתיוג POS וניתוח תלות
XLM-R (בסיס)2023-05חיבוק פניםיצירת הטמעת טקסט
YOLOv8v8.0.208אולטרליטיקהזיהוי אובייקטים חזותי

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Alberts, A., et al. VisualSem: A high-quality knowledge graph for vision and language. arXiv. , (2020).
  2. Chen, Y., et al. A survey on multimodal knowledge graphs: Construction, completion and applications. Mathematics. 11 (8), 1815-1835 (2023....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Multimodal Knowledge GraphsRule Based Linguistic AnalysisComputer VisionVisual Entity ExtractionHindi Visual DocumentsOptical Character RecognitionDependency ParsingEntity AlignmentMultilingual TransformerKnowledge Graph Reasoning

Related Articles