פרוטוקול זה עושה שימוש ב-CNNs, RNNs ו-ResNets לכיתוב תמונות, חילוץ תיאורים של פעילויות התמונות, אנשים, אובייקטים ואלמנטים נוספים. זה הוצדק עם ציוני מדדים של BLEU, CIDEr, METEOR ו-ROUGE.
Research Article
June 12th, 2026
פרוטוקול זה עושה שימוש ב-CNNs, RNNs ו-ResNets לכיתוב תמונות, חילוץ תיאורים של פעילויות התמונות, אנשים, אובייקטים ואלמנטים נוספים. זה הוצדק עם ציוני מדדים של BLEU, CIDEr, METEOR ו-ROUGE.
יצירת כיתובי תמונה היא מאמץ לספק תיאור טקסטואלי משמעותי הכולל תמונה. המידע המופק רלוונטי לפעילויות המופיעות בתמונות. ResNet (רשת שארית) ידועה ביכולתה לסווג תמונות, לאחר שפיתחה ייצוגים היררכיים עמוקים. מטרת מאמר זה היא להשתמש ב-ResNet עם מסננים חכמים שונים כדי לסווג תמונות לעומק רב יותר, ולאפשר יצירת תיאורים אותנטיים ומשמעותיים, מדויקים מאוד ביחס לכיתובי המקורות. כאן, העבודה עושה שימוש בטכניקת סינון חכמה לשיפור התמונות, ב-CNN לקידוד תכונות, בהדרכת מודלים, ולאחר מכן ברשת עצבית חוזרת (RNN) לפענוח התכונות. ResNet הוא מודל יעיל מאוד למשימות ראיית מחשב, במיוחד לסיווג עצמים וניתוח סמנטי. ResNet ידועה היטב בחיבורים שאריתיים, הידועים גם כחיבורים מדלגים שפותרים את בעיית הגרדיאנט המתאפס, שהיא בעיה קריטית בלמידה עמוקה. כאן, מדד הביצועים MSCOCO (Microsoft Common Object in Context) משמש לאימוני המודל, שהוא מאגר נתונים גדול עם הערות ייחוס השימושיות למשימות שונות של ראיית מחשב. ResNet מסייעת לשפר את יכולת ההכללה, שהיא שימושית במיוחד לתמונות מגוונות. לפי התוצאות שהתקבלו, ציוני BLUE הם B1: 0.579, B2: 0.404, B3: 0.279, B4: 0.191; METEOR: 0.195; רוז': 0.396; ו-CIDEr: 0.6.
בתחומי ראיית המחשב ועיבוד שפה טבעית, כיתוב תמונות הוא משימה קריטית שמחלצת תיאור של התמונה והפעולות שהיא מציגת. מטרת המודל היא להבין תמונות ולתרגם את המידע למשפטים או כיתובים משמעותיים1. כל התהליך מורכב משני שלבים משמעותיים: הראשון הוא חילוץ תכונות, שבו נעשה שימוש במודל CNN; השני הוא תיאור תמונה באמצעות RNN ובין לבין ResNet משמש לניתוח סמנטי, יצירת רצפים ומנגנון תשומת לב. ResNet שונה מאוד משיטות מבוססות תבנית או מודולים מבוססי DenseNet כי הוא משתמש בחיבורים מדלגים שמקצרים את זמן ההרצה תוך שיפור הביצועים. ישנם יישומים רבים של כתוביות תמונות הכוללים סיוע לאנשים עם לקות ראייה, חיזוק פלטפורמות מדיה חברתית, אופטימיזציה של מנועי חיפוש מבוססי תמונות, בינה מלאכותית מבוססת תמונה (AI) ועוד רבים.
בראייה ממוחשבת, זיהוי סצנות הוא התהליך של זיהוי וסיווג ההקשר או הסביבה הכללית של התמונה, כגון חוף, נוף עירוני, יער או משרד. בניגוד לזיהוי אובייקטים, שמתמקד בפריטים בודדים, זיהוי סצנה מתחשב במרקמים, סידורים מרחביים ויחסי עצמים כדי להבין את ההקשר הרחב יותר. היא משתמשת ב-CNN וב-Vision Transformers, מודלים של למידה עמוקה שאומנו על מאגרי נתונים גדולים כמו Places365 ו-ImageNet. היישומים כוללים מעקב אבטחה, מציאות רבודה ומציאות מדומה (AR ו-VR) לחוויות סוחפות, רובוטיקה למודעות סביבתית, ורכבים אוטונומיים לניווט. למרות ההתקדמות, בעיות כמו שינוי נקודות מבט, סתימות, ושינויים בתאורה הופכים את זיהוי הסצנות לנושא חם במחקר ראיית מחשב ובינה מלאכותית. בעיה יסודית נוספת בראיית מחשב היא זיהוי סצנות.
EnsCaption, מודל רשת יריבה דו-גנרטיבית, הוצע לשיפור טכניקת אנסמבל דור ושליפה3. פריסה זו מאפשרת שיטות כיתוב תמונות הרמוניות המבוססות על רבייה שמייצרות כיתובים התואמים למטרות הקיימות. בעוד שטכניקת השליפה משתמשת במודל מבוסס מיקום או דירוג כדי לבחור את המודל הטוב ביותר להפקת מידע בדיוק רב יותר מהאחרים בשאילתת התמונה. הוכנס מיפוי של תמונות ל"מרחב משמעות" באמצעות רכיבים ויזואליים כמו אובייקטים, פעילויות וסצנות, אשר לאחר מכן יושרו עם תבניות מילוליות מתאימות4. באמצעות הקורלציות והתכונות שנמצאו בתמונות, הגישה בונה ביטויים. משפטים מבטאים מידע בצורה עשירה, מרוכזת ועדינה. יצירת כתוביות מבוססת תבנית שופרה על ידי שילוב ידע הגיוני לשיפור ההבנה הסמנטית5. טכניקה זו הרחיבה את טווח התבנית מעבר למאפייני התמונה הישירים כדי לכלול אסוציאציות מוסקות. עבודה זו משתמשת במאגר נתונים קיים לזיהוי אובייקטים כדי לחלץ 16,000 משפטים הגיוניים לכל קטגוריה עם הערות. בנוסף, הושגה הכללה באמצעות WordNet, שאפשרה השראה של מספר רב של עובדות על אובייקטים שלא נראו קודם6. מציע סקירה של טקסונומיה מאורגנת של טכניקות למידה עמוקה לכתוביות תמונות, כולל נושאים כמו מנגנוני קשב, טקטיקות למידה מחזקת ומסגרות מקודד-מפענח. בנוסף לטיפול בנושאים כמו הזיית אובייקטים והבנה הקשרית, הוא גם בוחן מערכי נתונים נפוצים וקריטריוני הערכה. המחברים מציינים תחומים למחקר נוסף, כגון שיפור טכניקות הכשרה מקדימה של ראייה ושפת ראייה והפחתת הטיית מערכי נתונים. גישה לניתוח סמנטי המבוססת על רשתות עצביות קונבולוציונליות ורשתות עצביות חוזרות נבדקה עבור משימות כיתוב תמונה7. כיתוב תמונות הוא אחד השימושים המוכרים ביותר, ומאפשר למחשבים ליצור ביטויים מעוררי השראה שמכילים את התמונה. כדי לספק תיאורים סמנטיים ברמה גבוהה ומשמעותית, הליך זה כולל יותר מאשר רק זיהוי עצמים וסצנות; זה גם כולל בחינה של מצבם, תכונותיהם ואינטראקציותיהם. למרות המורכבות והקושי הטבועים בכיתוב התמונה, האקדמאים השיגו התקדמות מרשימה בתחום. שלוש הטכניקות העיקריות לכתוביות תמונות מבוססות רשת עצבית עמוקה שנבדקו במחקר זה הן מסגרות למידה מבוססות CNN-RNN, מבוססות CNN-CNN, ומסגרות למידה עם חיזוק. הוצג מודל אימון מקצה לקצה לכתוביות תמונות, המשלב ראייה ממוחשבת ועיבוד שפה טבעית ליצירת תיאורים קוהרנטיים של תמונות8. ליצירת כיתוב, הוא משתמש במסגרת מקודד-מפענח שבה LSTM מפענח תמונה למחרוזת מילים לאחר ש-CNN מאומן מראש מקודד אותה לווקטור תכונות. למרות חסרונותיו, כולל קשיים עם נופים מורכבים, התרומה של המאמר למשימות שפת הראייה היא עדיין יסודית9.
ResNet היא רשת עצבית קונבולוציונית (CNN) המשמשת במודל כתוביות התמונה המוצע לחילוץ מידע חזותי עשיר מתמונות קלט. ResNet משמש כמקודד ליצירת וקטור תכונות המייצג את התמונה, אשר בדרך כלל משמש בארכיטקטורת מקודד-מפענח. המפענח, שמייצר כיתובים תיאוריים מילה אחר מילה, מקבל תכונות אלו ולעיתים קרובות מיושם באמצעות רשת עצבית חוזרת (RNN), כגון LSTM או GRU. ניתן להוסיף מנגנון תשומת לב לשיפור הביצועים על ידי מתן אפשרות למפענח להתמקד באזורים ספציפיים בתמונה בזמן יצירת כל מילה. כדי למקסם את דיוק הכיתוב, המודל מאומן מקצה לקצה באמצעות פונקציית הפסד כמו חוצה-אנטרופיה ומערך נתונים כמו COCO. למידת העברה וכוונון עדין ב-ResNet יכולים לשפר את חילוץ התכונות, לחזק עוד יותר את המודל ולאפשר לו לייצר כיתובים איכותיים ומתאימים להקשר במגוון רחב של תמונות. בכיתוב תמונות, ResNet מועדף לעיתים קרובות על פני מודלים אחרים כי הוא מטפל ביעילות בבעיית הגרדיאנט המתעלם, בעיה נפוצה ברשתות עצביות עמוקות. הדבר מתאפשר בזכות גישות הלמידה השאריות החדשניות שלו, שמאמנות רשתות עמוקות בהרבה מבלי לפגוע בביצועים באמצעות חיבורי דילוג כדי להקל על זרימת גרדיאנטים במהלך הפצה אחורית. הפרספטרון הרב-שכבתי, רשת עצבית מקושרת במלואה עם ההזנה קדימה, קשורה לשכבה הניתנת לאימון. ה-RNN מפענח כיתובים באמצעות שכבת softmax, ויוצר כיתובים מועמדים. פונקציית ההפעלה היא f(x), פונקציית הזהות הקדמית היא f(x) + x, ו-x נחשבת לזהות, כפי שמודגם באיור 1. במקרה זה, המערכת משתמשת בבלוקים שאריתיים לכיול המודל במהלך האימון, והקלטים שלה עוברים גם דרך חיבורי משקל וגם דרך חיבורי דילוג, המכונים גם קיצורי זהות.

איור 1: רשת חיבור שאריתית. איור זה ממחיש את הארכיטקטורה של רשת שאריתית, ומדגיש חיבורים מדלגים שמשפרים את זרימת הגרדיאנט ומפחיתים גרדיאנטים נעלמים במהלך אימון רשת עמוקה. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.
נניח ש-Pl הוא הפלט; L הוא המספר הראשון. של בלוקים שאריתיים; ReLU אמור להיות בלוק מקובל אם הוא קרוב ל-1, אך אם אינו שווה ל-1, ניתן לחשב אותו כך:
(1)
כאן, b הוא המשתנה המקרי, ו-k היא פונקציית המיפוי.
(2)
כאן sl נחשב כהסתברות להישרדות עבור המערכת המוצעת;
(3)
הכלל המתקבל להסתברות הישרדות הוא:
(4)
כאשר SL אמור לשרוד כמו ש-L אמור להיות המספר הכולל לא. של בלוקים.
כתוביות תמונה היא משימה מאתגרת המשלבת עיבוד שפה טבעית וראיית מחשב ליצירת כיתובים טקסטואליים תיאוריים לתמונות. כדי לעשות זאת, יש להבין ולפרש את התוכן הוויזואלי של התמונה ולתרגם אותו למשפטים קוהרנטיים בתוך ההקשר. בתחום זה, מערכי נתונים נרחבים ומגוונים הם קריטיים להערכת מודלים והכשרה. מאגרי נתונים אלו מציעים מגוון רחב של תמונות והערות קשורות, החיוניות לפיתוח ובדיקת אלגוריתמים לכתוביות תמונות. מערכי הנתונים הנפוצים ביותר הם MSCOCO ו-Flickr30k, המכילים מיליוני תמונות ומציבים אתגרים שונים בעיבוד תמונה. MSCOCO גדול בהרבה מ-Flickr30k11. מאגר הנתונים של MS COCO חולק לקבוצות הבאות: 82,783 תמונות לאימון, 40,504 לאימות ו-40,775 לבדיקות.
המימוש בוצע עם המודל הראשי, שהוא ResNet-152, יחד עם מקודד כ-CNN, מפענח כ-RNN, ומשאבים מטבלת החומרים.
ResNet-152
ResNet נחשבת לעמוד השדרה להפקת תכונות בצורה יעילה יותר בכתוביות תמונה. ResNet סיפקה ביצועי אימון טובים יותר ממודלים אחרים, שכן היא טיפלה בבעיית הגרדיאנט המתעלם ופתרתה ביעילות. אובייקטים שונים עשויים להופיע בתמונות, והמודל צריך להבין את הקשרים ביניהם כדי לכתוב טוב יותר. זו הסיבה שניתן לראות בכך חילוץ תכונות היררכי. ResNet-152 מסוגל להתמודד עם משימות מורכבות של ראיית מחשב. היתרון המרכזי של מודל זה הוא השימוש היעיל בחיבורים שאריתיים או דילוגים. הוא יעיל מאוד בהתמודדות עם בעיית הגרדיאנט שנעלם. הוא יכול ללמוד תכונות מורכבות וחזקות כדי להשיג דיוק גבוה יותר. ResNet-152 עקב אחרי עיצוב צוואר בקבוק שהפחית עלויות חישוב והפך אותו ליעיל יותר מארכיטקטורות אחרות, כמו VGG-16. יש לו עמוד שדרה בולט של למידת העברה, המתאים למודלים מאומנים מראש ולמשימות מגוונות כגון זיהוי אובייקטים וחלוקת נתונים. חיבור הדילוג האיץ את האימון והפך אותו ליציב יותר. בהשוואה למודל המבוסס על טרנספורמר, המשתמש במנגנון ריכוז עצמי להבנת נתונים עוקבים, ResNet שונה לחלוטין. מודל מבוסס טרנספורמר דורש כמות גדולה של נתונים להבנה מעמיקה של נתונים טקסטואליים, מה שמניב תוצאות יעילות אך פועל מעט לאט יותר. המניע לבחירת ResNet הוא חיבורי הדילוג שלו, שמאיצים את הביצוע עם שיפור משמעותי בתוצאות. בתחום כיתוב התמונה, ResNet משמש לחילוץ התכונות לייצוג האובייקט והפעולה המתבצעת בתמונה. ResNet השתמשה ברשת שאריתית שניצלה חיבורי דילוג. כאן, ניתן לחשב את בלוק השאריות בהתייחסות לקלט Z כך:
(5)
כאשר Z נחשב לקלט של בלוק השארית.
היא פונקציה שאריתית הכוללת נרמול אצווה, שכבות קונבולוציונליות והפעלה של ReLu. {xi} נחשב למשקל הלמידה של השכבות המתאימות. Z גם מגדיר את זהות החיבור של דילוג, שגם היא פותרת את בעיית הגרדיאנט האפס. ResNet משמשת בדרך כלל כמחלץ תכונות למיפוי ויזואלי של תכונות מהתמונות. כאן, I נחשב כתמונת קלט לייצוג המפות של התכונה לייצוג תכונה ויזואלית גבוהה V.
(6)
לפני חילוץ תכונות, יש לעבור עיבוד מוקדם של התמונה כדי לשפר את חילוץ התכונות. היא נחשבת לתמונה גולמית שנאספה מבדיקת MSCOCO, ולכן הצעד הראשון בעיבוד המוקדם הוא לשנות את גודלה ולנרמל אותה.
(7)
(8)
כאשר Hl הוא גובה התמונה ו-Wl הוא משקל התמונה. Iresize היא התמונה ששינתה את הגודל.
כדי לנרמל את ערך הפיקסל מטווח [-1, 1] או [0, 1]
(9)
כאשר μ נחשב כערך הממוצע של הפיקסל σ נחשב לסטיית התקן של התמונה המוזכרת. התמונה המנורמלת מעובדת כעת לצורך חילוץ תכונות.
(10)
כאשר
- נחשב לווקטור התכונות. כאשר כיתוב השורה מיוצר טוקן, הוא מומר לפורמט המספרי.
(11)
אם הכיתוב מתחלק למילים אז
(12)
כאן, אוצר המילים משחק תפקיד חשוב, כאשר כל מילה מזוהה באופן ייחודי באמצעות אינדוקס מבוסס מספרים שלמים.
(13)
כאשר Vc נחשב לפונקציה של אוצר מילים; יש לוודא שלכל הרצפים יש אורך זוגי; לכן הגובה המקסימלי או האורך האידיאלי נחשבים כ-Lמקסימום.
(14)
עכשיו הטוקנים מוטמעים כך;
(15)
עבור j = 1,2,3, ... .., Lמקסימום
כאשר
נחשב לוקטור משובץ עם K ממדים; כעת המפענח משמש לפענוח הכיתוב ליצירת כיתובים מועמדים, המבוסס על מודל הסתברותי.
(16)
כאשר wj היא יצירת חותמת זמן j, w1: j-1 היא המילה שנוצרה בזמן j-1 ו-ej-1 היא התכונה המוטמעת במילה הקודמת wj-1. בכל חותמת זמן, הרשת חזה את המילה הבאה או ההסתברות הבאה מחושבת על אוצר המילים.
(17)
כאשר w פלט הוא משקל הפלט ו-bפלט הוא הטיית הפלט. לכן ההסתברות המקסימלית מחושבת כך
(18)
האורך המרבי של כיתוב המועמד מחושב לאחר קבלת המילה <סוף> או מזוהה כאסימון מיוחד כמו <התחלה> ו-. חיפוש קרן גם שימושי לבחירת כיתוב מועמד טוב יותר, כך שהרצף הוא:
(19)
(20)
לכן כיתוב המועמד שנוצר הוא הרצף של 
זיכרון ארוך-טווח קצר משמש בדרך כלל ליצירת רצפים. LSTM משתמשת ב-CNN כמחלץ תכונות ומייצרת מילים ברצף ליצירת משפטים משמעותיים. LSTM מחשב את שער השכחה בכל חותמת זמן T.

כאשר ft נחשב לשער שכחה, σ נחשב לפונקציית הפעלה, wf נחשב למשקל ו-bf כהטיה,
yt נחשב לוקטור תכונת קלט, ht-1 נחשב למצב נסתר.
(22)
(23)
Jt נחשב כקלט,
נחשב למצב מועמד, wj ו-w c נחשבים כמשקל לקלט ולמצב מועמד בהתאמה, bj & bc או נחשב להטיה.
(24)
Ct נחשב לכל המצבים, Ct-1 נחשב למצב קודם.
(25)
Ot נחשב לפלט, wo כמשקל ו-bo כהטיה. כדי לאתחל את מצבי הנסתר והתא, נדרשים החישובים הבאים.
(26)
(27)
כאשר hi ו-c i נחשבים למצב הנסתר והתא בהתאמה, wh ו-w c הם משקלים למצב תא נסתר ומצב תא מפרש בהתאמה, bc ו-b h נחשבים להטיה, k נחשב כמחלץ התכונות. רצף הכיתוב מחושב כך:
(28)
כאשר T הוא אורך הכיתוב שנוצר.
254 × 254 × 3 היא התמונה המוגדרת או המעובדת מראש, ו-I נחשבת לתמונה הקלט.
(29)
כאשר W ו-b נחשבים כמשקל והטיה, בהתאמה, I נחשב לתכונות קלט, ו-ReLU היא פונקציית ההפעלה. זהו חישוב השכבה הקונבולוציונית. כעת ניתן לחשב את שכבת האיגוד כך:
(30)
לאחר סיום שכבת האיחוד; השכבה המחוברת במלואה ניתנת למיפוי כך:
(31)
כאשר wf ו-bf נחשבים כמשקל והטיה של הרשת בהתאמה.
(32)
(33)
כאשר N נחשב לאזור המרחבי ו-d כממד של התכונה.
(34)
(35)
כאשר wh ו-bh נחשבים כמשקל והטיה של מצב נסתר, בהתאמה, wc ו-bc נחשבים כמשקל והטיה של מצב התא, בהתאמה. ניתן ליצור כיתוב כך:
(36)
מקודד ומפענח
המערכת המוצעת מקודדת את הנתונים לתרגום מכונה באמצעות CNN. במקרה זה, הקלט והפלט הם שניהם רצפים, אך ייתכן שאורכם יהיה שונה. אחד בכל פעם, המכונה מקודדת ומפענחת כל וקטור. באמצעות וקטור כנקודת התחלה, המכונה מתחילה לקודד ולפענח, וממשיכה לחשב עד להתפלגות ההסתברות המותנית הסופית. דוגמה אחת היא כדלקמן:
(37)
זה נחשב להתפלגות ההסתברות.
המערכת יכולה לקודד את הנתונים בצורה של תמונה וקטורית, וניתן לפענח אותם מאוחר יותר. FCN (I) נחשב למודל התמונה להבנת התמונה.
(38)
(39)
(40)
S1 הוא האיטרציה הבאה של S0, ו-S2 הוא האיטרציה הבאה של S1. אפשר לומר שכל קלט תלוי בפלט של השכבה הקודמת. התמונות מומרת לווקטורים על ידי CNN ונשלחת לשכבה הבאה, שעוברת על פני כל הוקטורים. כאן, מנגנון קשב משמש לסידור המילים ברצף למשפט משמעותי לאחר שה-RNN מפענח את הווקטורים למילים.
(41)
כאשר T הוא אורך הקלט.
(42)
(43)
k1, k 2, k3, k4, ......, k t-1 הם מצבי פענוח נסתרים.

איור 2: מודל קידוד ופענוח. איור זה מציג את מסגרת המקודד-מפענח המשמשת לכתוביות תמונה, ומראה כיצד תכונות תמונה מקודדות לייצוגים וקטוריים ולאחר מכן מפוענחות לתיאורים טקסטואליים סדרתיים. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.
מודל תהליך
ראו איור 3, המציג את תרשים הזרימה של מודולי האימון, שם נטענו ראשונים מערך הנתונים וכיתובי האמת הקרקעית. לאחר שהנתונים מנורמלים לקידוד CNN, מודל ResNet מאותחל ומאומן באמצעות התכונות שהופקו. RNN והמילים הספציפיות למערכת המסומנות בסימני התחלה וסיום יכולים לשמש לפענוח הכיתוב. המערכת משלימה את החילוץ אם נמצאת המילה הסופית, ו-N הוא מספר המילים הכולל בכיתוב המועמד.

איור 3: תרשים זרימה של מודל האימון. איור זה מתאר את התהליך שלב אחר שלב המעורב באימון המודל, כולל עיבוד נתונים מוקדם, חילוץ תכונות, למידת מודל ואופטימיזציה. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.
תרשים הזרימה של מודל הבדיקה מוצג באיור 4, כאשר המערכת טוענת תחילה את מודלי המקודד והמפענח, ואז טוענת את מודל ResNet ואת נתוני הקלט לצורך חילוץ כתוביות. אם לא היו שגיאות פענוח, ניתן להסיק מהמילה הראשונה ועד האחרונה. לאחר שמגיעים למילה האחרונה, ניתן לקבל מילים מפוענחות, וניתן ליצור כיתוב על ידי שימוש במנגנון תשומת לב לסידור המילים בצורה משמעותית ברצף. גודל הקורה של דגם האימון הוא חמש עם אורך מקסימלי של 20, וגודל האצווה הוא 128 עם 20 אפוקים.

איור 4: תרשים זרימה של מודל הבדיקה. איור זה מציג את תהליך הבדיקה, ומדגים כיצד תמונות קלט מעובדות דרך המודל המאומן ליצירת כיתובים ולהערכת ביצועים. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.
אלגוריתם כתוביות תמונות ResNet-152
מאתחל את פרמטרי הקלט והפלט, וכאן הקלט נלקח כקבוצת תמונות MSCOCO כ-I = (i1, i2, i3, ....... iN) יחד עם הערות J = (j1, j2, j3, ......... jN) והפלט מחושב ככתוביות. בשלב הראשון נדרשת קלט, ואז מעבדים מראש את התמונות על ידי שינוי גודל יחס הגובה-רוחב כ-
(44)
כאשר w ו-h הם הרוחב והגובה המקוריים של התמונה, wnew ו-hnew הם הממדים המוגדלים מחדש, Ts נחשב לגודל יעד מוגדר מראש (Ts = 224), max(w, h) מגדיר את הממד הגדול ביותר, אשר הוגדל כדי לשמור על יחס הגובה-רוחב.
לאחר חילוץ תכונות, נדרש להכריז על בלוק הזהות כ-
(45)
לאחר מכן מאתחל את הפרמטרים כמו גודל אצווה, מספר התקנים, Wמוסתר כמשקל לשכבות נסתרות, Wפלט לשכבת פלט, ו-Bגובה, B כהטיה. לאחר שהאתחול בוצע, יש לחשב את הפלט של שכבת הקונבולוציוניה.
(46)
ניתן לראות בו בלוק ReLU רגיל אם bl שקול ל-1. אבל אם bl אינו שווה ל-1 או שקול ל-0, אז הוא יהיה;
(47)
לאחר מכן מחשבים את היתכנות הישרדות על ידי
(48)
כאשר FK נחשב כיתכנות הישרדות של המערכת, ו-K נלקח לייצג את סך כל הבלוקים במודל. לאחר מכן מחשבים את התפלגות ההסתברות
(49)
לאחר חישוב התפלגות ההסתברות, בונה את המודל כדי לגשת אליו ולפענח את הנתונים בהם משתמשים.
/9500
k1, k 2, k3, k4, ......, k t-1 הם מצבי פענוח נסתרים.
בעת גישה למודל, נדרש להפעיל מנגנוני תשומת לב ליצירת כיתובים שמעריכים את כיתוב המועמד מול כיתוב המקור; ניתן להעריך את המדדים הסופיים באמצעות BLEU, METEOR, CIDEr ו-ROUGE.
מפרטי תוכנה וסביבה
פייתון 3.10 הייתה שפת התכנות העיקרית ששימשה לניסויים. Visual Studio Code שימש להקמת סביבת הפיתוח (VS Code). ספריות חשובות במחקר זה כוללות את Pickle לסריאליזציה של נתונים, מולטי-מעבדים לעיבוד מקביל, glob לטיפול בקבצים, ו-PyTorch לפיתוח מודלים בלמידה עמוקה. תצורת החומרה כללה 256 GB אחסון, 8GB זיכרון RAM וכרטיס מסך מסדרת NVIDIA GTX עם תמיכה ב-CUDA לחישוב מהיר יותר. מחשב שהפעיל מעבד AMD Ryzen 5000 או מעבד Intel Core i5 שימש לניסויים. Windows 10/11 הייתה מערכת ההפעלה ששימשה ליישום. ניתן להבין זאת בקלות מטבלת מפרטי הסביבה בטבלה 1.
| חומר | מפרט טכני |
| GPU | סדרת NVIDIA GTX |
| ספריות | PyTorch, Pickle, Multiprogramming, Glob |
| מערכת הפעלה | Windows 10/11 |
| מעבד | סדרת Intel Core i5/AMD Ryzen 5000 |
| תכנים | פייתון 3.10 |
| זיכרון RAM | 8 GB |
| תוכנה | קוד Visual Studio |
| אחסון | 256 GB |
טבלה 1: מפרטי סביבה. טבלה זו מסכמת את החומרים ששימשו ביישום ואת המפרטים שלהם, כגון שפות תכנות, ספריות ומפרטי חומרה.
ניתוח איכותני
לפי הניתוח האיכותי של המודל לפי הקטגוריות השונות, כמו סצנות חיצוניות ופנימיות וסצנות פשוטות ומורכבות, המודל די יעיל בתיאור התמונה. B1, B2, B3 ו-B4 נחשבים כציוני BLEU. C נחשב ל-CIDEr, M כ-METEOR, ו-R נחשב ל-ROUGE. עבור כל מטריצה שבה B1 הוא 0.579, B2 הוא 0.404, B3 הוא 0.279, B4 הוא 0.191, METEOR הוא 0.195, ROUGE הוא 0.396 ו-CIDEr הוא 0.6, התוצאה מיוצגת על ידי 1, כפי שמוצג בטבלה 2.
| מטריצות | ציוני MSCOCO |
| בלו1 | 0.579 |
| BLEU2 | 0.404 |
| בלו3 | 0.279 |
| BLEU4 | 0.191 |
| מטאור | 0.195 |
| רוז' | 0.396 |
| CIDEr | 0.6 |
טבלה 2: תוצאות ניסוי. טבלה זו מסכמת את ביצועי המודל המוצע באמצעות מדדי הערכה כגון BLEU, METEOR, ROUGE ו-CIDEr, ומספקת הערכה כמותית של איכות הכיתוב.

איור 5: תוצאה ניסיונית. איור זה מציג ייצוג גרפי של מדדי ההערכה, וממחיש את הביצועים ההשוואתיים של המודל במדדים שונים. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.
השוואת תוצאות מוצגת בטבלאות 3, 4 ו-5. המקורות הבאים מופיעים בטבלה 3, 3 ו-4:10,11,12,13,14
| שיטה | B1 | B2 | B3 | B4 |
| פייס-קאפס [10] | 0.5713 | 0.3651 | 0.2407 | 0.1652 |
| פייס-איניט [10] | 0.5663 | 0.3649 | 0.243 | 0.1686 |
| פייס-קאפL [11] | 0.589 | 0.3789 | 0.2507 | 0.1719 |
| פייס-סטפ [10] | 0.5843 | 0.3756 | 0.2478 | 0.1696 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.6012 | 0.3992 | 0.2703 | 0.1921 |
| CNN+RNN+ResNet-152 (מוצע) | 0.579 | 0.404 | 0.279 | 0.191 |
טבלה 3: השוואת תוצאות עבור ציוני BLEU. טבלה זו משווה תוצאות ציוני BLEU במודלים או תצורות שונות כדי להדגיש שיפורים בדיוק יצירת כתוביות.
כפי שמוצג בטבלאות 3 ו-4, CSPDN-BiLSTM-SelfAtt12 מתפקד טוב יותר ב-B1 ו-B4, בעוד ש-CNN+RNN+ResNet-152 מתפקד טוב יותר ב-B2 ו-B3. CNN+RNN+ResNet-152 טוב יותר מ-METER ו-CIDEr, ולא מ-ROUGE. לכן שתי השיטות שוות בציוני BLEU, אבל המדד המוצע טוב יותר משני המדדים האחרים. לכן העליונות הכוללת בתוצאה מושגת על ידי השיטה המוצעת. Face-CapF10, Face-Init10, Face-CapL11, Face-Step10 מבצעים כתוביות תמונה בהתבסס על מאגר הנתונים FlickrFace11K. אבל התוצאות יחסית גרועות, אפילו עבור מאגר נתונים גדול. למרות שלמודל המוצע יש ציון CIDEr גבוה משמעותית, פער זה נובע מהבדלים בהליך ההערכה, בהכנת מערך הנתונים ובפרטי היישום.
| שיטה | מטאור | CIDEr | רוז' |
| פייס-קאפס [10] | 0.1719 | 0.2304 | 0.4476 |
| פייס-איניט [10] | 0.1717 | 0.2313 | 0.4484 |
| פייס-קאפL [11] | 0.1744 | 0.2472 | 0.4547 |
| פייס-סטפ [10] | 0.1745 | 0.2283 | 0.4504 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.1932 | 0.2617 | 0.4793 |
| CNN+RNN+ResNet-152 (מוצע) | 0.195 | 0.6 | 0.396 |
טבלה 4: השוואת תוצאות ביחס ל-METEOR, CIDEr ו-ROUGE. טבלה זו מספקת ניתוח השוואתי של מדדי הערכה מרובים להערכת האיכות הסמנטית והתחבירית של כיתובים שנוצרו.
| שיטה | B1 | B2 | B3 | B4 | מטאור | רוז' |
| השדרוג תבניות [13] | 0.238 | 0.109 | 0.05 | 0.022 | 0.096 | 0.249 |
| EfficientNetB0 [14] | 0.2827 | 0.1325 | 0.0588 | 0.0266 | 0.2661 | 0.3609 |
| EfficientNetB1 [14] | 0.289 | 0.1404 | 0.0642 | 0.0286 | 0.271 | 0.3718 |
| ResNet50 [14] | 0.2637 | 0.1217 | 0.0496 | 0.0207 | 0.2437 | 0.3423 |
| MobileNetV2 [14] | 0.2106 | 0.064 | 0.0215 | 0.009 | 0.1794 | 0.2606 |
| CNN+RNN+ResNet-152 (מוצע) | 0.579 | 0.404 | 0.279 | 0.191 | 0.195 | 0.396 |
טבלה 5: השוואת תוצאות עבור ציוני BLEU, METEOR ו-ROUGE. טבלה זו מציגה השוואה מאוחדת של מדדי הערכה מרכזיים כדי להדגים את היעילות הכוללת של המודל.
לפי טבלה 5, EfficientNetB114 טוב יותר עבור METEOR, אבל CNN+RNN+ResNet-152 טוב יותר עבור B1-B 4 ו-ROUGE. בסך הכל, התוצאה המוצעת עדיפה על כל מדדי BLEU ו-ROUGE בהשוואה לשיטות שהוזכרו.
זמינות נתונים:
כל הנתונים הגולמיים וקבצי הקידוד הקשורים למחקר זה זמינים בקבצים המשלימים האלה.
בתחום הבינה המלאכותית, כתוביות תמונות היא משימה קשה. כתוביות תמונה היו נושא למחקרים רבים, וכיתוב חד או מדויק עדיין דורש את רמת הדיוק הגבוהה ביותר. טכניקות למידת מכונה רבות יכולות לשמש להשגת מטרת כתוביות התמונה, ומחקרים רבים השתמשו ב-CNN, RNN ו-ResNet-152. עם זאת, יש צורך בדיוק מוגבר וזמן עיבוד מופחת. המערכת המוצעת נבנית באמצעות CNN כמקודד, RNN כמפענח, Torch Vision כספרייה, ו-ResNet כמודל ההדרכה הראשי. ResNet משתמשת בטכניקת דילוג על חיבור כדי להשתמש בשכבות ולהשיג ביצועים טובים יותר בהשוואה למודלים קונבנציונליים אחרים כמו Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2 ועוד רבים 10,11,12,13,14.
השלבים הקריטיים בעבודה המוצעת הם שימוש במסנן חכם לניקוי התמונות, ולאחר מכן חילוץ תכונות בכל השלבים הראשיים. ללא חילוץ תכונות מדויק, לא ניתן להשיג את מטרת המודל, ואם המערכת לא מצליחה לחלץ את המאפיינים כראוי, דיוק הציונים המטריים נפגע. שלב האימון, שבוצע עם ניתוח מעמיק של וקטורי התכונה ומנגנון הקשב, שיחק תפקיד חיוני בפענוח נתוני הבדיקה. יש גם שלב קריטי נוסף בעבודה, שהוא עדכון הווקאל. כאשר מופיעות מילים חדשות במהלך בדיקת הנתונים, מילים אלו מצורפות למילון כדי לשפר את ביצועי המודל. צעדים קריטיים אלו מילאו תפקיד חיוני בהשגת דיוק טוב יותר, שהיה גבוה יותר מזה של המודל שהוצע קודם, כמו שיטת הגדלת התבניות. המערכת אימנה מודל למדד MSCOCO וקיבלה מודל יעיל יותר לכתוביות תמונות.
אם גודל נתוני הבדיקה גדל, ייתכן שיהיו מילים חדשות הקשורות לתמונות. זה עלול גם לגרום לאי-רלוונטיות בעת יצירת כיתובים, ואז ניתן לטפל בו דרך מנגנון הקשב, ששימש במודל. ניתן לעדכן אוצר מילים באמצעות מנגנון קשב שיכול להיות יעיל להערכה מאוחרת יותר. ניתן לראות בכך למידה עצמית או טיפול בחריגות. מכיוון שהמודל מאומן ב-MSCOCO, שמכיל אלפי תמונות מהעולם האמיתי, ישנם כל כך הרבה אובייקטים שעשויים להיווצר שצריך לעדכן בכל הסקנה.
חיסרון אחד של עבודה זו הוא שבהשוואה למאגרי נתונים עכשוויים המשמשים לאימון המשתמשים, המודל עשוי להציג ביצועים גרועים בתמונות ישנות בהרבה, במיוחד בשחור-לבן או תמונות היסטוריות באיכות נמוכה, בשל הבדלים בתכונות ויזואליות, ניגודיות ומרקם. אם התמונות בעלות רזולוציה נמוכה, קשה יותר לחלץ את התכונות המדויקות, ו-ResNet-152 עלול לפגוע בשלב הקידוד במקרה זה. הוא גם מתפקד בצורה גרועה על יותר מדי תמונות ישנות, מה שאומר שהתמונות הן מהעבר בגלל וקטורי תכונות גרועים או פגומים. המגבלות כוללות הערכת מערך נתונים יחיד והיעדר אימות הדדי.
בהשוואה לגישות קונבנציונליות, המודל המוצע טוב יותר כי הוא משפר את חילוץ התכונות, ובכך משפר את יצירת כיתובי התמונה. סינון חכם משפר את שלב חילוץ התכונות או הקידוד, מה שבונה את המודל טוב יותר. ResNet-152 גם משתמש בחיבורי דילוג שמנצלים את הזמן במהלך ההדרכה. לכן, הביצוע מהיר בהרבה ממודלים אחרים כמו EfficientNetB014. מנגנון הקשב הוא גם גורם מרכזי שמשפר את ביצועי המודל.
הטכניקה יכולה לשמש במערכות שליפת תמונות, מעקב אוטומטי וטכנולוגיות סיוע לאנשים עם לקויות ראייה. ככל שהבינה המלאכותית מתקדמת במהירות, נדרש שיפור מערכת שחזור התמונה, וטכניקה זו יכולה לתרום לכך. עם מודל זה, אנשים עם לקות ראייה יכולים לקבל עזרה לראות את העולם על ידי תרגומו לדיבור. ישנם מספר יישומים חשובים ופוטנציאליים לכתוביות תמונה.
המחברים מצהירים כי אין להם אינטרסים פיננסיים מתחרים או מערכות יחסים אישיות שיכלו להשפיע על העבודה המדווחת במאמר זה.
אנו מודים ליוצרי מערכי הנתונים של MSCOCO על מתן המדדים ששימשו במחקר זה. המחברים מצהירים כי לא התקבל מימון חיצוני למחקר זה.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| סדרת AMD Ryzen 5000 | AMD | 100-100000059WOF | סדרת AMD Ryzen 5000 היא סדרת מעבדים בעלי ביצועים גבוהים שפותחה על ידי AMD, המבוססת על ארכיטקטורת Zen 3. מעבדים אלו נמצאים בשימוש נרחב במחשבים שולחניים ומחשבים ניידים הן למחשוב כללי והן למשימות תובעניות כמו עיבוד נתונים ותהליכי עבודה בלמידת מכונה. |
| GPU | NVIDIA | 4.71933E+12 | ה-NVIDIA GeForce GTX היא סדרה של יחידות עיבוד גרפיקה (GPUs) שפותחו על ידי NVIDIA, ומשמשות רבות לגיימינג וכן למשימות מחשוב כלליות כמו למידה עמוקה ועיבוד תמונה. |
| Intel Core i5 | אינטל | BX8071514400F | Intel Core i5 היא סדרת מעבדים לטווח בינוני שפותחה על ידי אינטל, ומשמשת רבות במחשבים אישיים הן למשימות כלליות והן למשימות חישוביות. |
| פייתון 3.10 | קרן התוכנה של פייתון | PEP 619 | פייתון היא שפת תכנות מתפרשת ברמה גבוהה, המשמשת רבות במחשוב מדעי, ניתוח נתונים ולמידת מכונה. הוא ידוע בפשטותו, בקריאותו ובמערכת האקולוגית הנרחבת של הספריות. |
| פייטורץ' | פייסבוק | 26.03-py3 | PyTorch היא מסגרת למידה עמוקה בקוד פתוח שפותחה על ידי Meta Platforms (לשעבר פייסבוק), המשמשת רבות לבניית ואימון רשתות עצביות במחקר ובתעשייה. |
| קוד Visual Studio | מיקרוסופט | אין | Visual Studio Code (VS Code) הוא עורך קוד פתוח קל משקל שפותח על ידי מיקרוסופט. הוא בשימוש נרחב לפיתוח תוכנה, כולל למידת מכונה ופרויקטים של למידה עמוקה. |
| Windows 11 | מיקרוסופט | KB5083631 | Windows 11 היא מערכת הפעלה שפותחה על ידי מיקרוסופט, המשמשת רבות למחשוב כללי וכן לפיתוח תוכנה ולמידת מכונה. |
Request permission to reuse the text or figures of this JoVE article
Request Permission