יצירת כיתובי תמונה באמצעות גישות למידה עמוקה

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

יצירת כיתובי תמונה באמצעות גישות למידה עמוקה

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

פרוטוקול זה עושה שימוש ב-CNNs, RNNs ו-ResNets לכיתוב תמונות, חילוץ תיאורים של פעילויות התמונות, אנשים, אובייקטים ואלמנטים נוספים. זה הוצדק עם ציוני מדדים של BLEU, CIDEr, METEOR ו-ROUGE.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

יצירת כיתובי תמונה היא מאמץ לספק תיאור טקסטואלי משמעותי הכולל תמונה. המידע המופק רלוונטי לפעילויות המופיעות בתמונות. ResNet (רשת שארית) ידועה ביכולתה לסווג תמונות, לאחר שפיתחה ייצוגים היררכיים עמוקים. מטרת מאמר זה היא להשתמש ב-ResNet עם מסננים חכמים שונים כדי לסווג תמונות לעומק רב יותר, ולאפשר יצירת תיאורים אותנטיים ומשמעותיים, מדויקים מאוד ביחס לכיתובי המקורות. כאן, העבודה עושה שימוש בטכניקת סינון חכמה לשיפור התמונות, ב-CNN לקידוד תכונות, בהדרכת מודלים, ולאחר מכן ברשת עצבית חוזרת (RNN) לפענוח התכונות. ResNet הוא מודל יעיל מאוד למשימות ראיית מחשב, במיוחד לסיווג עצמים וניתוח סמנטי. ResNet ידועה היטב בחיבורים שאריתיים, הידועים גם כחיבורים מדלגים שפותרים את בעיית הגרדיאנט המתאפס, שהיא בעיה קריטית בלמידה עמוקה. כאן, מדד הביצועים MSCOCO (Microsoft Common Object in Context) משמש לאימוני המודל, שהוא מאגר נתונים גדול עם הערות ייחוס השימושיות למשימות שונות של ראיית מחשב. ResNet מסייעת לשפר את יכולת ההכללה, שהיא שימושית במיוחד לתמונות מגוונות. לפי התוצאות שהתקבלו, ציוני BLUE הם B1: 0.579, B2: 0.404, B3: 0.279, B4: 0.191; METEOR: 0.195; רוז': 0.396; ו-CIDEr: 0.6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

בתחומי ראיית המחשב ועיבוד שפה טבעית, כיתוב תמונות הוא משימה קריטית שמחלצת תיאור של התמונה והפעולות שהיא מציגת. מטרת המודל היא להבין תמונות ולתרגם את המידע למשפטים או כיתובים משמעותיים¹. כל התהליך מורכב משני שלבים משמעותיים: הראשון הוא חילוץ תכונות, שבו נעשה שימוש במודל CNN; השני הוא תיאור תמונה באמצעות RNN ובין לבין ResNet משמש לניתוח סמנטי, יצירת רצפים ומנגנון תשומת לב. ResNet שונה מאוד משיטות מבוססות תבנית או מודולים מבוססי DenseNet כי הוא משתמש בחיבורים מדלגים שמקצרים את זמן ההרצה תוך שיפור הביצועים. ישנם יישומים רבים של כתוביות תמונות הכוללים סיוע לאנשים עם לקות ראייה, חיזוק פלטפורמות מדיה חברתית, אופטימיזציה של מנועי חיפוש מבוססי תמונות, בינה מלאכותית מבוססת תמונה (AI^{) ועוד רבים}.

בראייה ממוחשבת, זיהוי סצנות הוא התהליך של זיהוי וסיווג ההקשר או הסביבה הכללית של התמונה, כגון חוף, נוף עירוני, יער או משרד. בניגוד לזיהוי אובייקטים, שמתמקד בפריטים בודדים, זיהוי סצנה מתחשב במרקמים, סידורים מרחביים ויחסי עצמים כדי להבין את ההקשר הרחב יותר. היא משתמשת ב-CNN וב-Vision Transformers, מודלים של למידה עמוקה שאומנו על מאגרי נתונים גדולים כמו Places365 ו-ImageNet. היישומים כוללים מעקב אבטחה, מציאות רבודה ומציאות מדומה (AR ו-VR) לחוויות סוחפות, רובוטיקה למודעות סביבתית, ורכבים אוטונומיים לניווט. למרות ההתקדמות, בעיות כמו שינוי נקודות מבט, סתימות, ושינויים בתאורה הופכים את זיהוי הסצנות לנושא חם במחקר ראיית מחשב ובינה מלאכותית. בעיה יסודית נוספת בראיית מחשב היא זיהוי סצנות.

EnsCaption, מודל רשת יריבה דו-גנרטיבית, הוצע לשיפור טכניקת אנסמבל דור ושליפה³. פריסה זו מאפשרת שיטות כיתוב תמונות הרמוניות המבוססות על רבייה שמייצרות כיתובים התואמים למטרות הקיימות. בעוד שטכניקת השליפה משתמשת במודל מבוסס מיקום או דירוג כדי לבחור את המודל הטוב ביותר להפקת מידע בדיוק רב יותר מהאחרים בשאילתת התמונה. הוכנס מיפוי של תמונות ל"מרחב משמעות" באמצעות רכיבים ויזואליים כמו אובייקטים, פעילויות וסצנות, אשר לאחר מכן יושרו עם תבניות מילוליות מתאימות⁴. באמצעות הקורלציות והתכונות שנמצאו בתמונות, הגישה בונה ביטויים. משפטים מבטאים מידע בצורה עשירה, מרוכזת ועדינה. יצירת כתוביות מבוססת תבנית שופרה על ידי שילוב ידע הגיוני לשיפור ההבנה הסמנטית⁵. טכניקה זו הרחיבה את טווח התבנית מעבר למאפייני התמונה הישירים כדי לכלול אסוציאציות מוסקות. עבודה זו משתמשת במאגר נתונים קיים לזיהוי אובייקטים כדי לחלץ 16,000 משפטים הגיוניים לכל קטגוריה עם הערות. בנוסף, הושגה הכללה באמצעות WordNet, שאפשרה השראה של מספר רב של עובדות על אובייקטים שלא נראו קודם⁶. מציע סקירה של טקסונומיה מאורגנת של טכניקות למידה עמוקה לכתוביות תמונות, כולל נושאים כמו מנגנוני קשב, טקטיקות למידה מחזקת ומסגרות מקודד-מפענח. בנוסף לטיפול בנושאים כמו הזיית אובייקטים והבנה הקשרית, הוא גם בוחן מערכי נתונים נפוצים וקריטריוני הערכה. המחברים מציינים תחומים למחקר נוסף, כגון שיפור טכניקות הכשרה מקדימה של ראייה ושפת ראייה והפחתת הטיית מערכי נתונים. גישה לניתוח סמנטי המבוססת על רשתות עצביות קונבולוציונליות ורשתות עצביות חוזרות נבדקה עבור משימות כיתוב תמונה⁷. כיתוב תמונות הוא אחד השימושים המוכרים ביותר, ומאפשר למחשבים ליצור ביטויים מעוררי השראה שמכילים את התמונה. כדי לספק תיאורים סמנטיים ברמה גבוהה ומשמעותית, הליך זה כולל יותר מאשר רק זיהוי עצמים וסצנות; זה גם כולל בחינה של מצבם, תכונותיהם ואינטראקציותיהם. למרות המורכבות והקושי הטבועים בכיתוב התמונה, האקדמאים השיגו התקדמות מרשימה בתחום. שלוש הטכניקות העיקריות לכתוביות תמונות מבוססות רשת עצבית עמוקה שנבדקו במחקר זה הן מסגרות למידה מבוססות CNN-RNN, מבוססות CNN-CNN, ומסגרות למידה עם חיזוק. הוצג מודל אימון מקצה לקצה לכתוביות תמונות, המשלב ראייה ממוחשבת ועיבוד שפה טבעית ליצירת תיאורים קוהרנטיים של תמונות⁸. ליצירת כיתוב, הוא משתמש במסגרת מקודד-מפענח שבה LSTM מפענח תמונה למחרוזת מילים לאחר ש-CNN מאומן מראש מקודד אותה לווקטור תכונות. למרות חסרונותיו, כולל קשיים עם נופים מורכבים, התרומה של המאמר למשימות שפת הראייה היא עדיין יסודית⁹.

ResNet היא רשת עצבית קונבולוציונית (CNN) המשמשת במודל כתוביות התמונה המוצע לחילוץ מידע חזותי עשיר מתמונות קלט. ResNet משמש כמקודד ליצירת וקטור תכונות המייצג את התמונה, אשר בדרך כלל משמש בארכיטקטורת מקודד-מפענח. המפענח, שמייצר כיתובים תיאוריים מילה אחר מילה, מקבל תכונות אלו ולעיתים קרובות מיושם באמצעות רשת עצבית חוזרת (RNN), כגון LSTM או GRU. ניתן להוסיף מנגנון תשומת לב לשיפור הביצועים על ידי מתן אפשרות למפענח להתמקד באזורים ספציפיים בתמונה בזמן יצירת כל מילה. כדי למקסם את דיוק הכיתוב, המודל מאומן מקצה לקצה באמצעות פונקציית הפסד כמו חוצה-אנטרופיה ומערך נתונים כמו COCO. למידת העברה וכוונון עדין ב-ResNet יכולים לשפר את חילוץ התכונות, לחזק עוד יותר את המודל ולאפשר לו לייצר כיתובים איכותיים ומתאימים להקשר במגוון רחב של תמונות. בכיתוב תמונות, ResNet מועדף לעיתים קרובות על פני מודלים אחרים כי הוא מטפל ביעילות בבעיית הגרדיאנט המתעלם, בעיה נפוצה ברשתות עצביות עמוקות. הדבר מתאפשר בזכות גישות הלמידה השאריות החדשניות שלו, שמאמנות רשתות עמוקות בהרבה מבלי לפגוע בביצועים באמצעות חיבורי דילוג כדי להקל על זרימת גרדיאנטים במהלך הפצה אחורית. הפרספטרון הרב-שכבתי, רשת עצבית מקושרת במלואה עם ההזנה קדימה, קשורה לשכבה הניתנת לאימון. ה-RNN מפענח כיתובים באמצעות שכבת softmax, ויוצר כיתובים מועמדים. פונקציית ההפעלה היא f(x), פונקציית הזהות הקדמית היא f(x) + x, ו-x נחשבת לזהות, כפי שמודגם באיור 1. במקרה זה, המערכת משתמשת בבלוקים שאריתיים לכיול המודל במהלך האימון, והקלטים שלה עוברים גם דרך חיבורי משקל וגם דרך חיבורי דילוג, המכונים גם קיצורי זהות.

איור 1: רשת חיבור שאריתית. איור זה ממחיש את הארכיטקטורה של רשת שאריתית, ומדגיש חיבורים מדלגים שמשפרים את זרימת הגרדיאנט ומפחיתים גרדיאנטים נעלמים במהלך אימון רשת עמוקה. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

נניח ש-P_l הוא הפלט; L הוא המספר הראשון. של בלוקים שאריתיים; ReLU אמור להיות בלוק מקובל אם הוא קרוב ל-1, אך אם אינו שווה ל-1, ניתן לחשב אותו כך:

משוואה 1 (1)

כאן, b הוא המשתנה המקרי, ו-k היא פונקציית המיפוי.

משוואה 2 (2)

כאן s_l נחשב כהסתברות להישרדות עבור המערכת המוצעת;

משוואה 3 (3)

הכלל המתקבל להסתברות הישרדות הוא:

משוואה 4 (4)

כאשר S_L אמור לשרוד כמו ש-L אמור להיות המספר הכולל לא. של בלוקים.

כתוביות תמונה היא משימה מאתגרת המשלבת עיבוד שפה טבעית וראיית מחשב ליצירת כיתובים טקסטואליים תיאוריים לתמונות. כדי לעשות זאת, יש להבין ולפרש את התוכן הוויזואלי של התמונה ולתרגם אותו למשפטים קוהרנטיים בתוך ההקשר. בתחום זה, מערכי נתונים נרחבים ומגוונים הם קריטיים להערכת מודלים והכשרה. מאגרי נתונים אלו מציעים מגוון רחב של תמונות והערות קשורות, החיוניות לפיתוח ובדיקת אלגוריתמים לכתוביות תמונות. מערכי הנתונים הנפוצים ביותר הם MSCOCO ו-Flickr30k, המכילים מיליוני תמונות ומציבים אתגרים שונים בעיבוד תמונה. MSCOCO גדול בהרבה מ-Flickr30k11. מאגר הנתונים של MS COCO חולק לקבוצות הבאות: 82,783 תמונות לאימון, 40,504 לאימות ו-40,775 לבדיקות.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

המימוש בוצע עם המודל הראשי, שהוא ResNet-152, יחד עם מקודד כ-CNN, מפענח כ-RNN, ומשאבים מטבלת החומרים.

ResNet-152
ResNet נחשבת לעמוד השדרה להפקת תכונות בצורה יעילה יותר בכתוביות תמונה. ResNet סיפקה ביצועי אימון טובים יותר ממודלים אחרים, שכן היא טיפלה בבעיית הגרדיאנט המתעלם ופתרתה ביעילות. אובייקטים שונים עשויים להופיע בתמונות, והמודל צריך להבין את הקשרים ביניהם כדי לכתוב טוב יותר. זו הסיבה שניתן לראות בכך חילוץ תכונות היררכי. ResNet-152 מסוגל להתמודד עם משימות מורכבות של ראיית מחשב. היתרון המרכזי של מודל זה הוא השימוש היעיל בחיבורים שאריתיים או דילוגים. הוא יעיל מאוד בהתמודדות עם בעיית הגרדיאנט שנעלם. הוא יכול ללמוד תכונות מורכבות וחזקות כדי להשיג דיוק גבוה יותר. ResNet-152 עקב אחרי עיצוב צוואר בקבוק שהפחית עלויות חישוב והפך אותו ליעיל יותר מארכיטקטורות אחרות, כמו VGG-16. יש לו עמוד שדרה בולט של למידת העברה, המתאים למודלים מאומנים מראש ולמשימות מגוונות כגון זיהוי אובייקטים וחלוקת נתונים. חיבור הדילוג האיץ את האימון והפך אותו ליציב יותר. בהשוואה למודל המבוסס על טרנספורמר, המשתמש במנגנון ריכוז עצמי להבנת נתונים עוקבים, ResNet שונה לחלוטין. מודל מבוסס טרנספורמר דורש כמות גדולה של נתונים להבנה מעמיקה של נתונים טקסטואליים, מה שמניב תוצאות יעילות אך פועל מעט לאט יותר. המניע לבחירת ResNet הוא חיבורי הדילוג שלו, שמאיצים את הביצוע עם שיפור משמעותי בתוצאות. בתחום כיתוב התמונה, ResNet משמש לחילוץ התכונות לייצוג האובייקט והפעולה המתבצעת בתמונה. ResNet השתמשה ברשת שאריתית שניצלה חיבורי דילוג. כאן, ניתן לחשב את בלוק השאריות בהתייחסות לקלט Z כך:

משוואה 5 (5)

כאשר Z נחשב לקלט של בלוק השארית.
משוואה 6 היא פונקציה שאריתית הכוללת נרמול אצווה, שכבות קונבולוציונליות והפעלה של ReLu. {x_i} נחשב למשקל הלמידה של השכבות המתאימות. Z גם מגדיר את זהות החיבור של דילוג, שגם היא פותרת את בעיית הגרדיאנט האפס. ResNet משמשת בדרך כלל כמחלץ תכונות למיפוי ויזואלי של תכונות מהתמונות. כאן, I נחשב כתמונת קלט לייצוג המפות של התכונה לייצוג תכונה ויזואלית גבוהה V.

משוואה 8 (6)

לפני חילוץ תכונות, יש לעבור עיבוד מוקדם של התמונה כדי לשפר את חילוץ התכונות. היא נחשבת לתמונה גולמית שנאספה מבדיקת MSCOCO, ולכן הצעד הראשון בעיבוד המוקדם הוא לשנות את גודלה ולנרמל אותה.

משוואה 9 (7)

משוואה 10 (8)

כאשר H^lהוא גובה התמונה ו-W^l הוא משקל התמונה. I_resize היא התמונה ששינתה את הגודל.

כדי לנרמל את ערך הפיקסל מטווח [-1, 1] או [0, 1]

משוואה 15 (9)

כאשר μ נחשב כערך הממוצע של הפיקסל σ נחשב לסטיית התקן של התמונה המוזכרת. התמונה המנורמלת מעובדת כעת לצורך חילוץ תכונות.

משוואה 18 (10)

כאשר משוואה 19 - נחשב לווקטור התכונות. כאשר כיתוב השורה מיוצר טוקן, הוא מומר לפורמט המספרי.

משוואה 20 (11)

אם הכיתוב מתחלק למילים אז

משוואה 21 (12)

כאן, אוצר המילים משחק תפקיד חשוב, כאשר כל מילה מזוהה באופן ייחודי באמצעות אינדוקס מבוסס מספרים שלמים.

משוואה 22 (13)

כאשר V_c נחשב לפונקציה של אוצר מילים; יש לוודא שלכל הרצפים יש אורך זוגי; לכן הגובה המקסימלי או האורך האידיאלי נחשבים כ-L_{מקסימום}.

משוואה 25 (14)

עכשיו הטוקנים מוטמעים כך;

משוואה 26 (15)

עבור j = 1,2,3, ... .., L_{מקסימום}

כאשר משוואה 28 נחשב לוקטור משובץ עם K ממדים; כעת המפענח משמש לפענוח הכיתוב ליצירת כיתובים מועמדים, המבוסס על מודל הסתברותי.

משוואה 29 (16)

כאשר w_j היא יצירת חותמת זמן j, w_{1: j-1} היא המילה שנוצרה בזמן j-1 ו-e_j-1 היא התכונה המוטמעת במילה הקודמת wj-1. בכל חותמת זמן, הרשת חזה את המילה הבאה או ההסתברות הבאה מחושבת על אוצר המילים.

משוואה 35 (17)

כאשר _{w פלט} הוא משקל הפלט ו-b_פלט הוא הטיית הפלט. לכן ההסתברות המקסימלית מחושבת כך

משוואה 38 (18)

האורך המרבי של כיתוב המועמד מחושב לאחר קבלת המילה <סוף> או מזוהה כאסימון מיוחד כמו <התחלה> ו-. חיפוש קרן גם שימושי לבחירת כיתוב מועמד טוב יותר, כך שהרצף הוא:

משוואה 39 (19)

משוואה 40 (20)

לכן כיתוב המועמד שנוצר הוא הרצף של משוואה 41

זיכרון ארוך-טווח קצר משמש בדרך כלל ליצירת רצפים. LSTM משתמשת ב-CNN כמחלץ תכונות ומייצרת מילים ברצף ליצירת משפטים משמעותיים. LSTM מחשב את שער השכחה בכל חותמת זמן T.

משוואה 42

כאשר f_t נחשב לשער שכחה, σ נחשב לפונקציית הפעלה, w_f נחשב למשקל ו-b_f כהטיה,

y_t נחשב לוקטור תכונת קלט, h_t-1 נחשב למצב נסתר.

משוואה 48 (22)

משוואה 49 (23)

J_t נחשב כקלט, משוואה 106 נחשב למצב מועמד, w_j _{ו-w c} נחשבים כמשקל לקלט ולמצב מועמד בהתאמה, b_j & b_c או נחשב להטיה.

משוואה 54 (24)

C_t נחשב לכל המצבים, C_t-1 נחשב למצב קודם.

משוואה 57 (25)

O_t נחשב לפלט, w_o כמשקל ו-b_o כהטיה. כדי לאתחל את מצבי הנסתר והתא, נדרשים החישובים הבאים.

משוואה 61 (26)

משוואה 62 (27)

כאשר h_i _{ו-c i} נחשבים למצב הנסתר והתא בהתאמה, w_h _{ו-w c} הם משקלים למצב תא נסתר ומצב תא מפרש בהתאמה, b_c _{ו-b h} נחשבים להטיה, k נחשב כמחלץ התכונות. רצף הכיתוב מחושב כך:

משוואה 69 (28)

כאשר T הוא אורך הכיתוב שנוצר.

254 × 254 × 3 היא התמונה המוגדרת או המעובדת מראש, ו-I נחשבת לתמונה הקלט.

משוואה 71 (29)

כאשר W ו-b נחשבים כמשקל והטיה, בהתאמה, I נחשב לתכונות קלט, ו-ReLU היא פונקציית ההפעלה. זהו חישוב השכבה הקונבולוציונית. כעת ניתן לחשב את שכבת האיגוד כך:

משוואה 72 (30)

לאחר סיום שכבת האיחוד; השכבה המחוברת במלואה ניתנת למיפוי כך:

משוואה 73 (31)

כאשר w_f ו-b_f נחשבים כמשקל והטיה של הרשת בהתאמה.

משוואה 74 (32)

משוואה 75 (33)

כאשר N נחשב לאזור המרחבי ו-d כממד של התכונה.

משוואה 76 (34)

משוואה 77 (35)

כאשר w_h ו-b_h נחשבים כמשקל והטיה של מצב נסתר, בהתאמה, w_c ו-b_c נחשבים כמשקל והטיה של מצב התא, בהתאמה. ניתן ליצור כיתוב כך:

משוואה 78 (36)

מקודד ומפענח
המערכת המוצעת מקודדת את הנתונים לתרגום מכונה באמצעות CNN. במקרה זה, הקלט והפלט הם שניהם רצפים, אך ייתכן שאורכם יהיה שונה. אחד בכל פעם, המכונה מקודדת ומפענחת כל וקטור. באמצעות וקטור כנקודת התחלה, המכונה מתחילה לקודד ולפענח, וממשיכה לחשב עד להתפלגות ההסתברות המותנית הסופית. דוגמה אחת היא כדלקמן:

משוואה 80 (37)

זה נחשב להתפלגות ההסתברות.

המערכת יכולה לקודד את הנתונים בצורה של תמונה וקטורית, וניתן לפענח אותם מאוחר יותר. FC_N (I) נחשב למודל התמונה להבנת התמונה.

משוואה 83 (38)

משוואה 84 (39)

משוואה 85 (40)

S₁ הוא האיטרציה הבאה של S₀, ו-S₂ הוא האיטרציה הבאה של S₁. אפשר לומר שכל קלט תלוי בפלט של השכבה הקודמת. התמונות מומרת לווקטורים על ידי CNN ונשלחת לשכבה הבאה, שעוברת על פני כל הוקטורים. כאן, מנגנון קשב משמש לסידור המילים ברצף למשפט משמעותי לאחר שה-RNN מפענח את הווקטורים למילים.

משוואה 86 (41)

כאשר T הוא אורך הקלט.

משוואה 87 (42)

משוואה 88 (43)

k₁, _{k 2}, k₃, k₄, ......, _{k t-1} הם מצבי פענוח נסתרים.

איור 2: מודל קידוד ופענוח. איור זה מציג את מסגרת המקודד-מפענח המשמשת לכתוביות תמונה, ומראה כיצד תכונות תמונה מקודדות לייצוגים וקטוריים ולאחר מכן מפוענחות לתיאורים טקסטואליים סדרתיים. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

מודל תהליך
ראו איור 3, המציג את תרשים הזרימה של מודולי האימון, שם נטענו ראשונים מערך הנתונים וכיתובי האמת הקרקעית. לאחר שהנתונים מנורמלים לקידוד CNN, מודל ResNet מאותחל ומאומן באמצעות התכונות שהופקו. RNN והמילים הספציפיות למערכת המסומנות בסימני התחלה וסיום יכולים לשמש לפענוח הכיתוב. המערכת משלימה את החילוץ אם נמצאת המילה הסופית, ו-N הוא מספר המילים הכולל בכיתוב המועמד.

איור 3: תרשים זרימה של מודל האימון. איור זה מתאר את התהליך שלב אחר שלב המעורב באימון המודל, כולל עיבוד נתונים מוקדם, חילוץ תכונות, למידת מודל ואופטימיזציה. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

תרשים הזרימה של מודל הבדיקה מוצג באיור 4, כאשר המערכת טוענת תחילה את מודלי המקודד והמפענח, ואז טוענת את מודל ResNet ואת נתוני הקלט לצורך חילוץ כתוביות. אם לא היו שגיאות פענוח, ניתן להסיק מהמילה הראשונה ועד האחרונה. לאחר שמגיעים למילה האחרונה, ניתן לקבל מילים מפוענחות, וניתן ליצור כיתוב על ידי שימוש במנגנון תשומת לב לסידור המילים בצורה משמעותית ברצף. גודל הקורה של דגם האימון הוא חמש עם אורך מקסימלי של 20, וגודל האצווה הוא 128 עם 20 אפוקים.

איור 4: תרשים זרימה של מודל הבדיקה. איור זה מציג את תהליך הבדיקה, ומדגים כיצד תמונות קלט מעובדות דרך המודל המאומן ליצירת כיתובים ולהערכת ביצועים. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

אלגוריתם כתוביות תמונות ResNet-152
מאתחל את פרמטרי הקלט והפלט, וכאן הקלט נלקח כקבוצת תמונות MSCOCO כ-I = (i₁, i₂, i₃, ....... i_N) יחד עם הערות J = (j₁, j₂, j₃, ......... j_N) והפלט מחושב ככתוביות. בשלב הראשון נדרשת קלט, ואז מעבדים מראש את התמונות על ידי שינוי גודל יחס הגובה-רוחב כ-

משוואה 92 (44)

כאשר w ו-h הם הרוחב והגובה המקוריים של התמונה, w_new ו-h_new הם הממדים המוגדלים מחדש, T_s נחשב לגודל יעד מוגדר מראש (T_s = 224), max(w, h) מגדיר את הממד הגדול ביותר, אשר הוגדל כדי לשמור על יחס הגובה-רוחב.

לאחר חילוץ תכונות, נדרש להכריז על בלוק הזהות כ-

משוואה 100 (45)

לאחר מכן מאתחל את הפרמטרים כמו גודל אצווה, מספר התקנים, W_מוסתרכמשקל לשכבות נסתרות, W_פלט לשכבת פלט, ו-B_גובה, Bכהטיה. לאחר שהאתחול בוצע, יש לחשב את הפלט של שכבת הקונבולוציוניה.

משוואה 101 (46)

ניתן לראות בו בלוק ReLU רגיל אם b_l שקול ל-1. אבל אם b_l אינו שווה ל-1 או שקול ל-0, אז הוא יהיה;

משוואה 102 (47)

לאחר מכן מחשבים את היתכנות הישרדות על ידי

משוואה 103 (48)

כאשר F_K נחשב כיתכנות הישרדות של המערכת, ו-K נלקח לייצג את סך כל הבלוקים במודל. לאחר מכן מחשבים את התפלגות ההסתברות

משוואה 104 (49)

לאחר חישוב התפלגות ההסתברות, בונה את המודל כדי לגשת אליו ולפענח את הנתונים בהם משתמשים.

משוואה 105 /9500

k₁, _{k 2}, k₃, k₄, ......, _{k t-1} הם מצבי פענוח נסתרים.

בעת גישה למודל, נדרש להפעיל מנגנוני תשומת לב ליצירת כיתובים שמעריכים את כיתוב המועמד מול כיתוב המקור; ניתן להעריך את המדדים הסופיים באמצעות BLEU, METEOR, CIDEr ו-ROUGE.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

מפרטי תוכנה וסביבה
פייתון 3.10 הייתה שפת התכנות העיקרית ששימשה לניסויים. Visual Studio Code שימש להקמת סביבת הפיתוח (VS Code). ספריות חשובות במחקר זה כוללות את Pickle לסריאליזציה של נתונים, מולטי-מעבדים לעיבוד מקביל, glob לטיפול בקבצים, ו-PyTorch לפיתוח מודלים בלמידה עמוקה. תצורת החומרה כללה 256 GB אחסון, 8GB זיכרון RAM וכרטיס מסך מסדרת NVIDIA GTX עם תמיכה ב-CUDA לחישוב מהיר יותר. מחשב שהפעיל מעבד AMD Ryzen 5000 או מעבד Intel Core i5 שימש לניסויים. Windows 10/11 הייתה מערכת ההפעלה ששימשה ליישום. ניתן ...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

בתחום הבינה המלאכותית, כתוביות תמונות היא משימה קשה. כתוביות תמונה היו נושא למחקרים רבים, וכיתוב חד או מדויק עדיין דורש את רמת הדיוק הגבוהה ביותר. טכניקות למידת מכונה רבות יכולות לשמש להשגת מטרת כתוביות התמונה, ומחקרים רבים השתמשו ב-CNN, RNN ו-ResNet-152. עם זאת, יש צורך בדיוק מוגבר וזמן עיבוד מופחת. המערכת המוצעת נבנית באמצעות CNN כמקודד, RNN כמפענח, Torch Vision כספרייה, ו-ResNet כמודל ההדרכה הראשי. ResNet משתמשת בטכניקת דילוג על חיבור כדי להשתמש בשכבות ולהשיג ביצועים טובים יותר בהשווא...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

המחברים מצהירים כי אין להם אינטרסים פיננסיים מתחרים או מערכות יחסים אישיות שיכלו להשפיע על העבודה המדווחת במאמר זה.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

אנו מודים ליוצרי מערכי הנתונים של MSCOCO על מתן המדדים ששימשו במחקר זה. המחברים מצהירים כי לא התקבל מימון חיצוני למחקר זה.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	סדרת AMD Ryzen 5000 היא סדרה של מעבדים בעלי ביצועים גבוהים שפותחה על ידי AMD, המבוססת על ארכיטקטורת Zen 3. מעבדים אלו נמצאים בשימוש נרחב במחשבים שולחניים ומחשבים ניידים הן למטרות כלליות והן למשימות תובעניות כמו עיבוד נתונים ותהליכי למידת מכונה.
GPU	NVIDIA	4.71933E+12	סדרת ה-NVIDIA GeForce GTX היא סדרה של יחידות עיבוד גרפי (GPU) שפותחו על ידי NVIDIA, הנמצאות בשימוש נרחב למשחקים וכן למשימות מחשוב כלליות כמו למידת עומק ועיבוד תמונה.
Intel Core i5	Intel	BX8071514400F	Intel Core i5 היא סדרת מעבדים ברמה בינונית שפותחה על ידי Intel, הנמצאת בשימוש נרחב במחשבים אישיים הן למטרות כלליות והן למשימות חישוביות.
Python 3.10	Python Software Foundation	PEP 619	Python היא שפת תכנות מתורגמת ברמה גבוהה הנמצאת בשימוש נרחב בחישוב מדעי, ניתוח נתונים ולמידת מכונה. היא ידועה בזכות הפשטות, הקריאות והמגוון הרחב של הספריות שלה.
PyTorch	Facebook	26.03-py3	PyTorch הוא מסגרת למידת עומק קוד פתוח שפותחה על ידי Meta Platforms (לשעבר Facebook), הנמצאת בשימוש נרחב לבנייה והכשרה של רשתות עצביות במחקר ובתעשייה.
Visual Studio Code	Microsoft	None	Visual Studio Code (VS Code) הוא עורך קוד קל משקל וקוד פתוח שפותח על ידי Microsoft. הוא נמצא בשימוש נרחב לפיתוח תוכנה, כולל פרויקטים של למידת מכונה ולמידת עומק.
Windows 11	Microsoft	KB5083631	Windows 11 הוא מערכת הפעלה שפותחה על ידי Microsoft, הנמצאת בשימוש נרחב למחשוב כללי וכן למשימות פיתוח תוכנה ולמידת מכונה.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

יצירת כיתובי תמונה באמצעות גישות למידה עמוקה

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles