Research Article

توليد تسمية الصورة باستخدام أساليب التعلم العميق

June 12th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يستخدم هذا البروتوكول شبكات CNN وRNNs وResNets لترجمة الصور، واستخراج أوصاف أنشطة الصور، والأشخاص، والأشياء، والعناصر الأخرى. وقد تم تبرير ذلك بدرجات BLUE وCIDEr وMETEOR وROUGE.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

توليد تعليق الصور هو محاولة لتقديم وصف نصي ذي معنى يتضمن صورة. المعلومات المستخرجة ذات صلة بالأنشطة الموجودة في الصور. تشتهر شبكة ResNet (Residual Network) بقدرته على تصنيف الصور، حيث طورت تمثيلات هرمية عميقة. تهدف هذه الورقة إلى استخدام ResNet مع عدة مرشحات ذكية لتصنيف الصور بشكل أعمق، مما يمكن من توليد أوصاف حقيقية وذات معنى دقيقة للغاية بالنسبة للتعليقات المرجعية. هنا، يستخدم العمل تقنية تصفية ذكية لتحسين الصور، وشبكة CNN لترميز الميزات، وتدريب النماذج، ثم شبكة عصبية متكررة (RNN) لفك ترميز الميزات. يعد ResNet نموذجا فعالا جدا لمهام رؤية الحاسوب، خاصة تصنيف الكائنات والتحليل الدلالي. تشتهر ريزنت بالاتصالات المتبقية، والتي تعرف أيضا بالاتصالات المتخطية التي تحل مشكلة تدرج الاختفاء، وهي مشكلة حاسمة في التعلم العميق. هنا، يستخدم معيار MSCOCO (كائن مايكروسوفت المشترك في السياق) لتدريب النموذج، وهو مجموعة بيانات كبيرة مع تعليقات مرجعية مفيدة لمهام رؤية الحاسوب المختلفة. يساعد ResNet في تعزيز قدرة التعميم، وهو أمر مفيد بشكل خاص للصور المتنوعة. وفقا للنتائج التي تم الحصول عليها، درجات BLUE هي B1: 0.579، B2: 0.404، B3: 0.279، B4: 0.191؛ النيزك: 0.195; روج: 0.396; وCIDEr: 0.6.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

في مجالات الرؤية الحاسوبية ومعالجة اللغة الطبيعية، يعد كتابة الترجمة مهمة حيوية تستخرج وصفا للصورة والإجراءات التي تظهرها. هدف النموذج هو فهم الصور وترجمة المعلومات إلى جمل أو تعليقات ذات معنى1. يتكون الإجراء بأكمله من مرحلتين مهمتين: الأولى هي استخراج الميزات، حيث يستخدم نموذج CNN؛ الثاني هو وصف الصورة باستخدام RNN & بينهما، يستخدم ResNet للتحليل الدلالي، وتوليد التسلسلات، وآلية الانتباه. ResNet يختلف كثيرا عن الطرق المعتمدة على القوالب أو الوحدات المبنية على DenseNet لأنه يستخدم اتصالات تخطي تقلل من وقت التنفيذ مع تحسين الأداء. هناك العديد من تطبيقات الترجمة التوضيحية للصور التي تشمل مساعدة الأشخاص ضعاف البصر، وتعزيز منصات التواصل الاجتماعي، وتحسين محركات البحث المعتمدة على الصور، والذكاء الاصطناعي المعتمد على الصور، والعديدغيرها.

في الرؤية الحاسوبية، التعرف على المشاهد هو عملية تحديد وتصنيف السياق العام للصورة أو بيئتها، مثل الشاطئ أو المشهد الحضري أو الغابة أو المكتب. على عكس التعرف على الأشياء التي تركز على العناصر الفردية، يأخذ التعرف على المشاهد في الاعتبار الخامات والترتيبات المكانية وعلاقات الأشياء لفهم السياق الأكبر. يستخدم CNNs وVision Transterners، ونماذج التعلم العميق المدربة على مجموعات بيانات كبيرة مثل Places365 وImageNet. تشمل التطبيقات مراقبة الأمان، والواقع المعزز والافتراضي (الواقع المعزز والواقع الافتراضي) لتجارب غامرة، والروبوتات للوعي البيئي، والمركبات الذاتية القيادة للملاحة. على الرغم من التقدم، فإن مشاكل مثل تغير وجهات النظر، والاحتجازات، وتغير الإضاءة تجعل من التعرف على المشاهد موضوعا ساخنا في أبحاث الرؤية الحاسوبية والذكاء الاصطناعي. مشكلة أساسية أخرى في رؤية الحاسوب هي التعرف على المشاهد.

تم اقتراح نموذج EnsCaption، وهو نموذج شبكة عدائية توليدي مزدوج، لتحسين تقنية التجمع بين التوليد والاسترجاع3. يتيح هذا التصميم طرق ترجمة الصور المتناغمة القائمة على الإنجاب، والتي تولد تعليقات تتماشى مع الأهداف القائمة. بينما تستخدم تقنية الاسترجاع نموذجا يعتمد على الموقع أو التصنيف لاختيار أفضل نموذج لاستخراج المعلومات بدقة أكبر من النماذج الأخرى في الاستعلام المعتمد على الصور. تم تقديم تحويل الصور إلى "فضاء المعنى" باستخدام مكونات بصرية مثل الأشياء والأنشطة والمشاهد، والتي تم محاذاتها بعد ذلك مع القوالب اللفظية المقابلة4. باستخدام الارتباطات والصفات الموجودة في الصور، يقوم النهج ببناء العبارات. تعبر الجمل عن المعلومات بطريقة غنية ومختصرة ودقيقة. تم تعزيز توليد الترجمة المعتمدة على القوالب من خلال دمج المعرفة المنطقية لتحسين الفهم الدلالي5. وسعت هذه التقنية نطاق القالب إلى ما هو أبعد من خصائص الصورة المباشرة ليشمل الارتباطات المستنتجة. يستخدم هذا العمل مجموعة بيانات اكتشاف الكائنات الموجودة لاستخراج 16,000 عبارة منطقية لكل فئة مشروحة. بالإضافة إلى ذلك، تم تحقيق التعميم باستخدام WordNet، مما أتاح استنتاج عدد كبير من الحقائق حول كائنات لم تر سابقا6. يقدم مراجعة لتصنيف منظم لتقنيات التعلم العميق لترجمة الصور، بما في ذلك مواضيع مثل آليات الانتباه، وتكتيكات التعلم التعزيزي، وأطر الترميز وفك الترميز. إلى جانب معالجة قضايا مثل هلوسة الأشياء وفهم السياق، يفحص أيضا مجموعات البيانات الشائعة الاستخدام ومعايير التقييم. يشير المؤلفون إلى مجالات للدراسة الإضافية، مثل تحسين تقنيات التدريب المسبق للرؤية واللغة وتقليل تحيز مجموعات البيانات. تم استكشاف نهج تحليل دلالي قائم على الشبكات العصبية الالفافية والشبكات العصبية المتكررة لمهام ترجمة الصور7. تعد ترجمة الصور من أشهر الاستخدامات، حيث تتيح لأجهزة الكمبيوتر إنتاج عبارات مؤثرة تجسد الصورة. لتقديم أوصاف دلالية عالية المستوى وذات دلالة، يتطلب هذا الإجراء أكثر من مجرد تحديد الأشياء والمشاهد؛ كما يتضمن فحص حالتهم وخصائصهم وتفاعلاتهم. على الرغم من التعقيد والصعوبة المتأصلة في ترجمة الصور، حقق الأكاديميون تقدما ملحوظا في هذا المجال. التقنيات الثلاث الرئيسية لترجمة الصور المعتمدة على الشبكات العصبية العميقة التي تغطيها هذه الدراسة هي أطر التعلم المعتمدة على CNN-RNN، وCNN-CNN، وأطر التعلم التعزيزي. تم تقديم نموذج قابل للتدريب من الطرف إلى الطرف لترجمة الصور، يدمج الرؤية الحاسوبية ومعالجة اللغة الطبيعية لتوليد أوصاف متماسكةللصور 8. لإنشاء تعليق، يستخدم إطار عمل مشفر-مفكك حيث يقوم جهاز LSTM بفك ترميز الصورة إلى سلسلة كلمات بعد أن يقوم CNN المدرب مسبقا بترميزها إلى متجه ميزات. على الرغم من عيوبها، بما في ذلك صعوبات التعامل مع المناظر المعقدة، فإن مساهمة الورقة في مهام اللغة البصرية لا تزال أساسية9.

ريزنت هي الشبكة العصبية الالتفافية (CNN) المستخدمة في نموذج ترجمة الصور المقترح لاستخراج معلومات بصرية غنية من الصور المدخلة. يعمل ResNet كمشفر لإنتاج متجه ميزات يمثل الصورة، وهو ما يستخدم عادة في بنية المشفر-مفكك. يستقبل جهاز فك الترميز هذه الميزات وغالبا ما يتم تنفيذه باستخدام شبكة عصبية متكررة (RNN)، مثل LSTM أو GRU. يمكن إضافة آلية انتباه لتحسين الأداء من خلال تمكين جهاز فك التشفير من التركيز على مناطق محددة من الصورة أثناء توليد كل كلمة. لتعظيم دقة الترجمة، يتم تدريب النموذج من البداية إلى النهاية باستخدام دالة خسارة مثل الإنتروبيا المتقاطع ومجموعة بيانات مثل COCO. يمكن للتعلم التحويلي وضبط ResNet تحسين استخراج الميزات، مما يقوي النموذج أكثر ويمكنه من إنتاج تعليقات عالية الجودة ومناسبة للسياق عبر مجموعة واسعة من الصور. في ترجمة الصور، غالبا ما يفضل ResNet على النماذج الأخرى لأنه يعالج بفعالية مشكلة تدرج الاختفاء، وهي مشكلة شائعة في الشبكات العصبية العميقة. ويتم ذلك بفضل أساليبه الجديدة للتعلم المتبقي، التي تدرب شبكات أعمق بكثير دون التضحية بالأداء من خلال استخدام اتصالات تخطي لتسهيل تدفق التدرج أثناء الانتشار العكسي. يرتبط البيرسيبترون متعدد الطبقات، وهو شبكة عصبية متقدمة متصلة بالكامل، بالطبقة القابلة للتدريب. ثم يقوم RNN بفك ترميز الترجمة باستخدام طبقة softmax، مما ينتج تعليقات مرشحة. دالة التنشيط هي f(x)، دالة الهوية الأمامية هي f(x) + x، وتعتبر x هوية، كما هو موضح في الشكل 1. في هذه الحالة، يستخدم النظام الكتل المتبقية لمعايرة النموذج أثناء التدريب، وتمر مدخلاته عبر كل من وصلات الوزن واتصالات التخطي، والمعروفة أيضا باسم اختصارات الهوية.

figure-introduction-1
الشكل 1: شبكة اتصال متبقية. يوضح هذا الشكل بنية الشبكة المتبقية، مسلطا الضوء على الاتصالات التي تحسن تدفق التدرج وتقلل من التدرجات المتلاشية أثناء تدريب الشبكة العميقة. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

افترض أن Pl هو المخرج؛ L هو رقم من الكتل المتبقية؛ من المفترض أن تكون ReLU كتلة تقليدية إذا كانت قريبة من 1، ولكن إذا لم تكن تساوي 1، فيمكن حسابها كالتالي:

figure-introduction-2(1)

هنا، b هو المتغير العشوائي، وk هو دالة التحويل.

figure-introduction-3(2)

هنا يعتبر sl كاحتمال بقاء النظام المقترح؛

figure-introduction-4(3)

القاعدة الناتجة لاحتمال البقاء على قيد الحياة هي؛

figure-introduction-5(4)

حيث من المفترض أن يكون SL على احتمال البقاء وكذلك L هو الرقم الإجمالي لا. من الكتل.

الترجمة التوضيحية للصور مهمة صعبة تجمع بين معالجة اللغة الطبيعية والرؤية الحاسوبية لإنتاج تعليقات نصية وصفية للصور. للقيام بذلك، يجب فهم وتفسير المحتوى البصري للصورة وترجمته إلى جمل متماسكة ضمن سياقها. في هذا المجال، وجود مجموعات بيانات واسعة ومتنوعة أمر بالغ الأهمية لتقييم النماذج والتدريب. تقدم هذه المجموعات مجموعة واسعة من الصور والتعليقات التوضيحية ذات الصلة، وهي ضرورية لتطوير واختبار خوارزميات ترجمة الصور. أكثر مجموعات البيانات استخداما هي MSCOCO وFlickr30k، والتي تحتوي على ملايين الصور وتطرح تحديات متنوعة في معالجة الصور. MSCOCO أكبر بكثير من Flickr30k11. تم تقسيم مجموعة بيانات MS COCO إلى المجموعات التالية: 82,783 صورة للتدريب، 40,504 للتحقق من الصحة، و40,775 للاختبار.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

تم تنفيذ النموذج الرئيسي وهو ResNet-152، مع مشفر كCNN، وفك ترميز ك RNN، وموارد جدول المواد.

ريزنت-152
يعتبر ResNet العمود الفقري لاستخراج الميزات بشكل أكثر كفاءة في ترجمة الصور. قدم ريزنت أداء تدريبيا أفضل من النماذج الأخرى، حيث عالج مشكلة التدرج الاختفائي وحلها بكفاءة. قد تظهر أشياء مختلفة في الصور، ويحتاج النموذج إلى فهم علاقاتها لتحسين الترجمة. لهذا السبب يمكن اعتباره استخراجا هرميا للميزات. يمكن ل ResNet-152 التعامل مع مهام رؤية الحاسوب المعقدة. الميزة الرئيسية لهذا النموذج هي الاستخدام الفعال للاتصالات المتبقية أو التخطي. وهو فعال للغاية في معالجة مشكلة تدرج التدرج المتلاشي. يمكنه تعلم ميزات معقدة وقوية لتحقيق دقة أعلى. اتبع ريزنت-152 تصميم عنق زجاجة يقلل من التكلفة الحسابية وجعله أكثر فعالية من البنى الأخرى مثل VGG-16. يمتلك عمودا أساسيا بارزا في تعلم النقل، مناسب للنماذج المدربة مسبقا والمهام المتنوعة مثل اكتشاف الكائنات وتقسيم البيانات. رابط التخطي سرع التدريب وجعله أكثر استقرارا. مقارنة بالنموذج القائم على المحولات، الذي يستخدم آلية الانتباه الذاتي لفهم البيانات التسلسلية، فإن ResNet مختلف تماما. يتطلب نموذج المحول كمية كبيرة من البيانات لفهم عميق للبيانات النصية، مما ينتج نتائج فعالة لكنه يعمل بشكل أبطأ قليلا. الدافع وراء اختيار ResNet هو اتصالات التخطي التي تسرع التنفيذ مع تحسن كبير في النتائج. في مجال ترجمة الصور، يستخدم ResNet لاستخراج الميزات التي تمثل الكائن والإجراء الذي يتم في الصورة. استخدم ريزنت شبكة متبقية تستفيد من اتصالات التخطي. هنا، يمكن حساب الكتلة المتبقية بالرجوع إلى المدخل Z كما يلي:

figure-protocol-1(5)

حيث يعتبر Z مدخل الكتلة المتبقية.
figure-protocol-2هي دالة متبقية تتضمن تطبيع الدفعات، وطبقات الالتفاف، وتنشيط ReLu. {xi} يعتبر وزن التعلم للطبقات المقابلة. Z أيضا يعرف هوية الاتصال بتخطي، والتي تحل أيضا مشكلة التدرج الاختفي. يستخدم ResNet عادة كأداة لاستخراج الميزات لرسم خرائط الميزات البصرية من الصور. هنا، يعتبر I كصورة إدخال لتمثيل خرائط الميزات إلى تمثيل الميزة البصري العالي V.

figure-protocol-3(6)

قبل استخراج الميزات، يجب معالجة الصورة مسبقا لتحسين استخراج الميزات. تعتبر صورة خام تم جمعها من معيار MSCOCO، لذا فإن الخطوة الأولى في المعالجة المسبقة هي إعادة حجمها وتطبيعها.

figure-protocol-4(7)

figure-protocol-5(8)

حيث Hl هو ارتفاع الصورة وWl هو وزن الصورة. الصورة التيأعد تحجمها.

لتطبيع قيمة البكسل من النطاق [-1، 1] أو [0، 1]

figure-protocol-6(9)

حيث يعتبر μ كقيمة متوسطة للبكسل σ يعتبر الانحراف المعياري للصورة المشار إليها. يتم الآن معالجة الصورة المعادية بشكل إضافي لاستخراج الميزات.

figure-protocol-7(10)

حيث figure-protocol-8 يعتبر متجه الميزة. عندما يتم تحويل ترجمة الصف، يتم تحويلها إلى الشكل الرقمي.

figure-protocol-9(11)

إذا انقسم التعليق إلى كلمات إذا

figure-protocol-10(12)

هنا، تلعب المفردات دورا مهما، حيث يتم تحديد كل كلمة بشكل فريد من خلال الفهرسة الصحيحة.

figure-protocol-11(13)

حيث يعتبر Vc وظيفة مفردات؛ يجب التأكد من أن جميع التسلسلات لها طول متساوي؛ لذا يعتبر الارتفاع الأقصى أو الطول المثالي هو Lmax.

figure-protocol-12(14)

الآن يتم تضمين الرموز كالتالي:

figure-protocol-13(15)

ل j = 1,2,3، ... ..، Lكحد أقصى

حيث figure-protocol-14 يعتبر متجه مدمجا بأبعاد K؛ الآن يستخدم المفكك لفك ترميز الترجمة لإنشاء الترجمة المرشحة، والتي تعتمد على نموذج احتمالي.

figure-protocol-15(16)

حيث wj هو عمل في ختم زمني j، w1: j-1 هو الكلمة المولدة في الطابع الزمني j-1 و ej-1 هو الميزة المدمجة مع الكلمة السابقة wj-1. في كل طابع زمني، كانت الشبكة تتوقع الكلمة القادمة أو الاحتمال التالي الذي يتم حسابه عبر المفردات.

figure-protocol-16(17)

حيث wالناتج هو وزن الخرج و bهو انحياز الإخراج. لذا يتم حساب الاحتمال الأقصى كالتالي

figure-protocol-17(18)

يتم حساب الحد الأقصى لطول الترجمة المرشحة بمجرد استلام الكلمة <النهاية> أو تحديدها كرمز خاص مثل <ابدأ> و <نهاية>. البحث بالشعاع مفيد أيضا لاختيار الترجمة المرشحة الأفضل، لذا التسلسل هو:

figure-protocol-18(19)

figure-protocol-19(20)

لذا فإن الترجمة المرشحة المولدة هي تسلسل figure-protocol-20

تستخدم الذاكرة طويلة المدى قصيرة المدى عادة في توليد التسلسل. تستخدم LSTM شبكة CNN كأداة استخراج ميزات وتولد الكلمات بشكل متسلسل لإنشاء جمل ذات معنى. تحسب LSTM بوابة النسيان عند كل ختم زمني T.

figure-protocol-21

حيث يعتبر ft بوابة نسيان، σ تعتبر دالة تنشيط، وwf كوزن وbf كتحيز،

YT يعتبر متجه ميزة الإدخال، بينما يعتبر ht-1 حالة مخفية.

figure-protocol-22(22)

figure-protocol-23(23)

يعتبر Jt كمدخ، ويعتبر figure-protocol-24 حالة مرشحة، وwj &w c كوزن للمدخلات والحالة المرشحة على التوالي، وb j &b c أو ينظر إليه كتحيز.

figure-protocol-25(24)

يعتبر Ct كحالة كلها، وCt-1 يعتبر حالة سابقة.

figure-protocol-26(25)

Ot يعتبر مخرجا، wo كوزن وbo كتحيز. لتهيئة الحالات المخفية وحالة الخلية، تتطلب الحسابات التالية.

figure-protocol-27(26)

figure-protocol-28(27)

حيث يعتبر hi و c i كالحالة الخفية والحالة الخلوية على التوالي، وwh و w c هما أوزان لحالة الخلية الخفية والخلية الشراعية على التوالي، وbc و b h كتحيز، وk يعتبر مستخرج الميزات. يتم حساب تسلسل التعليق كما يلي:

figure-protocol-29(28)

حيث T هو طول الترجمة المكتملة.

254 × 254 × 3 هي الصورة المعاد حجمها أو معالجتها مسبقا، وتعتبر الصورة I كصورة الإدخال.

figure-protocol-30(29)

حيث يعتبر W و b كوزن وانحياز على التوالي، ويعتبر I كميزات إدخال، وReLU هي دالة التفعيل. وهو حساب الطبقة الالتفافية. الآن يمكن حساب طبقة التجميع كما يلي:

figure-protocol-31(30)

بعد الانتهاء من طبقة التجميع؛ يمكن تعيين الطبقة المتصلة بالكامل كما يلي:

figure-protocol-32(31)

حيث يعتبر wf و bf كوزن وانحياز للشبكة على التوالي.

figure-protocol-33(32)

figure-protocol-34(33)

حيث يعتبر N كمنطقة مكانية وd كبعد للميزة.

figure-protocol-35(34)

figure-protocol-36(35)

حيث يعتبر wh و bh كوزن وانحياز للحالة الخفية على التوالي، بينما يعتبر wc و bc وزن وتحيز لحالة الخلية على التوالي. يمكن إنشاء الترجمة التوضيحية كالتالي:

figure-protocol-37(36)

المشفر وفك الترميز
النظام المقترح يشفر البيانات للترجمة الآلية باستخدام شبكة CNN. في هذه الحالة، الإدخال والمخرج هما تسلسلان، لكن قد يختلفان في الطول. واحدة تلو الأخرى، تقوم الآلة بترميز وفك تشفير كل متجه. باستخدام متجه كنقطة بداية، تبدأ الآلة في الترميز وفك الترميز، وتستمر في الحساب حتى التوزيع الاحتمالي الشرطي النهائي. أحد الأمثلة هو كما يلي:

figure-protocol-38(37)

يعتبر هذا توزيع الاحتمال.

يمكن للنظام ترميز البيانات على شكل صورة متجهة، ويمكن لاحقا فك ترميزها. يعتبر fcn (I) نموذج الصورة لفهم الصورة.

figure-protocol-39(38)

figure-protocol-40(39)

figure-protocol-41(40)

S1 هو التكرار اللاحق ل S0، وS2 هو التكرار اللاحق ل S1. يمكن القول إن كل مدخل يعتمد على مخرج الطبقة السابقة. يتم تحويل الصور إلى متجهات بواسطة CNN وترسل إلى الطبقة التالية، التي تعبر جميع المتجهات. هنا، يستخدم آلية انتباه لترتيب الكلمات بشكل متسلسل في جملة ذات معنى بعد أن يقوم RNN بفك رموز المتجهات إلى كلمات.

figure-protocol-42(41)

حيث T هو طول المدخل.

figure-protocol-43(42)

figure-protocol-44(43)

k1، k 2، k3، k4، ......، k t-1 هي حالات فك ترميز مخفية.

figure-protocol-45
الشكل 2: نموذج الترميز وفك الترميز. يعرض هذا الشكل إطار عمل المشفر-فك التشفير المستخدم في ترجمة الصور، موضحا كيف يتم ترميز ميزات الصورة إلى تمثيلات متجهية ثم يتم فك ترميزها إلى أوصاف نصية متسلسلة. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

نموذج العملية
انظر الشكل 3، الذي يعرض مخطط تدفق وحدات التدريب، حيث تم تحميل مجموعة البيانات وتعليقات الحقيقة الأرضية أولا. بعد تطبيع البيانات لترميز CNN، يتم تهيئة نموذج ResNet وتدريبه باستخدام الميزات المستخرجة. يمكن بعد ذلك استخدام RNN والكلمات الخاصة بالنظام الموسوم بعلامات البداية والنهاية لفك ترميز الترجمة. يكمل النظام الاستخراج إذا تم العثور على الكلمة النهائية، وN هو إجمالي عدد الكلمات في الترجمة المرشحة.

figure-protocol-46
الشكل 3: مخطط تدفق نموذج التدريب. يوضح هذا الشكل العملية خطوة بخطوة المتضمنة في تدريب النموذج، بما في ذلك معالجة البيانات المسبقة، واستخراج الميزات، وتعلم النموذج، والتحسين. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

يظهر مخطط تدفق نموذج الاختبار في الشكل 4، حيث يقوم النظام أولا بتحميل نموذج المشفر وفك الترميز، ثم يحمل نموذج ResNet وبيانات الإدخال لاستخراج الترجمة. إذا لم تحدث أي أخطاء في فك الترميز، يمكن إجراء الاستدلال من أول كلمة إلى آخرها. بعد الوصول إلى الكلمة النهائية، يمكن الحصول على كلمات مفككة، ويمكن إنشاء تعليق عن طريق استخدام آلية انتباه لترتيب الكلمات بشكل متسلسل بطريقة ذات معنى. حجم عارضة نموذج التدريب هو خمسة بطول أقصى 20، وحجم دفعته 128 مع 20 فترة من العارضة.

figure-protocol-47
الشكل 4: مخطط تدفق نموذج الاختبار. يعرض هذا الشكل سير عمل الاختبار، موضحا كيف تتم معالجة الصور المدخلة عبر النموذج المدرب لإنشاء التعليقات وتقييم الأداء. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

خوارزمية ترجمة الصور ResNet-152
قم بتهيئة معلمات الإدخال والإخراج، وهنا يؤخذ الإدخال كمجموعة صور MSCOCO ك I = (i1, i2, i3, ....... iN) مع التعليق J = (j1, j2, j3, ......... جن) ويتم حساب الناتج كترجمات. في الخطوة الأولى، يلزم الإدخال، ثم تعالج الصور مسبقا عن طريق تغيير نسبة العرض إلى الارتفاع كما يلي

figure-protocol-48(44)

حيث w و h هما العرض والارتفاع الأصليان للصورة، وwجديد  وhجديد هما الأبعاد المعاد حجمها، وTs يعتبر حجم الهدف المحدد مسبقا (Ts = 224)، وmax(w, h) يحدد أكبر بعد، والذي تم تكبيره للحفاظ على نسبة العرض إلى الارتفاع.

بعد استخراج الميزات، يطلب إعلان كتلة الهوية ك

figure-protocol-49(45)

ثم تهيئة المعلمات مثل حجم الدفعة، عدد الحقبة، Wالمخفية كوزن للطبقات المخفية، Wمخرجات كطبقة الإخراج، وB ارتفاع وB كتحيز. بمجرد الانتهاء من التهيئة، يطلب حساب مخرج الطبقة الالتفافية.

figure-protocol-50(46)

يمكن اعتبارها كتلة ReLU عادية إذا كان bl يعادل 1. ولكن إذا لم يكن bl مساويا ل 1 أو يعادل 0، فسيكون كذلك؛

figure-protocol-51(47)

ثم احسب جدوى البقاء بواسطة

figure-protocol-52(48)

حيث يعتبر FK جدوى بقاء النظام، ويعتبر K يمثل العدد الكلي للكتل في النموذج. ثم نحسب توزيع الاحتمالات

figure-protocol-53(49)

بمجرد حساب توزيع الاحتمال، يبني النموذج للوصول إليه وفك تشفير البيانات المستخدمة.

figure-protocol-54/9500

k1، k 2، k3، k4، ......، k t-1 هي حالات فك ترميز مخفية.

عند الوصول إلى النموذج، يطلب تطبيق آليات الانتباه لإنشاء الترجمة التي تقيم الترجمة المرشحة مقابل الترجمة المرجعية؛ يمكن بعد ذلك تقييم المقاييس النهائية باستخدام BLEU وMETEOR وCIDEr وROUGE.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

مواصفات البرمجيات والبيئة
كانت بايثون 3.10 هي لغة البرمجة الرئيسية المستخدمة في التجارب. تم استخدام كود فيجوال ستوديو لإعداد بيئة التطوير (VS Code). تشمل المكتبات المهمة المستخدمة في هذا البحث Pickle لتسلسل البيانات، والمعالجة المتعددة للمعالجة المتوازية، وGlob لمعالجة الملفات، وPyTorch لتطوير نماذج التعلم العميق. تضمن تكوين الأجهزة 256 جيجابايت من التخزين، و8 جيجابايت من الذاكرة، وبطاقة رسومات من سلسلة NVIDIA GTX مع دعم CUDA للحوسبة السريعة. تم استخدام حاسوب يعمل إما بمعالج AMD Ryzen 5000 أو معالج Intel Core i5 في التجارب. كان نظام التشغيل ويندوز 10/11 هو المستخدم في التنفيذ. يمكن فهمه بسهولة من جدول مواصفات البيئة في الجدول 1.

المادةالمواصفات
وحدة معالجة الرسومياتسلسلة NVIDIA GTX
المكتباتPyTorch، Pickle، Multiprogramming، Glob
نظام التشغيلويندوز 10/11
المعالجسلسلة Intel Core i5/AMD Ryzen 5000
البرامجبايثون 3.10
ذاكرة RAM8 جيجابايت
البرمجياتكود فيجوال ستوديو
التخزين256 جيجابايت

الجدول 1: مواصفات البيئة. يلخص هذا الجدول المواد المستخدمة في التنفيذ ومواصفاتها، مثل لغات البرمجة، والمكتبات، ومواصفات الأجهزة.

التحليل النوعي
وفقا للتحليل النوعي للنموذج وفقا للفئات المختلفة، مثل المشاهد الخارجية والداخلية والمشاهد البسيطة والمعقدة، فإن النموذج فعال إلى حد ما في وصف الصورة. تعتبر B1 وB2 وB3 وB4 درجات BLEU. يعتبر C كCIDEr، وM هو METEOR، وR يعتبر ROUGE. لكل مصفوفة حيث B1 هو 0.579، B2 هو 0.404، B3 هو 0.279، B4 هو 0.191، METEOR هو 0.195، ROUGE هو 0.396، وCIDEr هو 0.6، يتم تمثيل النتيجة ب 1، كما هو موضح في الجدول 2.

المصفوفاتموسيقى MSCOCO
بلو10.579
بلو20.404
بلو30.279
بلو40.191
نيزك0.195
روج0.396
CIDEr0.6

الجدول 2: النتائج التجريبية. يلخص هذا الجدول أداء النموذج المقترح باستخدام مقاييس تقييم مثل BLEU وMeteor وROUGE وCIDEr، مقدما تقييما كميا لجودة الترجمة.

figure-results-1
الشكل 5: نتيجة تجريبية. يقدم هذا الشكل تمثيلا بيانيا لمقاييس التقييم، موضحا الأداء المقارن للنموذج عبر مقاييس مختلفة. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

مقارنة النتائج موضحة في الجداول 3 و4 و5. المراجع التالية مدرجة في الجداول 3، 3 و4:10، 11، 12، 13، 14

الطريقةB1B2B3B4
فيس-كابف [10]0.57130.36510.24070.1652
الوجه [10]0.56630.36490.2430.1686
فيس-كابيل [11]0.5890.37890.25070.1719
خطوة الوجه [10]0.58430.37560.24780.1696
CSPDN-BiLSTM-SelfAtt [12]0.60120.39920.27030.1921
CNN+RNN+ResNet-152 (مقترح)0.5790.4040.2790.191

الجدول 3: مقارنة النتائج لدرجات BLEU. يقارن هذا الجدول نتائج درجات BLEU عبر نماذج أو تكوينات مختلفة لتسليط الضوء على التحسينات في دقة توليد الترجمة.

كما هو موضح في الجدولين 3 و4، يعمل CSPDN-BiLSTM-SelfAtt12 بشكل أفضل على B1 وB4، بينما يؤدي CNN+RNN+ResNet-152 أداء أفضل على B2 وB3. CNN+RNN+ResNet-152 أفضل من METER و CIDEr، وليس ROUGE. لذا كلا الطريقتين متساويتان في درجات BLEU، لكن الطريقة المقترحة أفضل من المقياسين الآخرين. لذا يتم تحقيق التفوق العام في النتيجة بواسطة الطريقة المقترحة. تقوم Face-CapF10، Face-Init10، Face-CapL11، Face-Step10 بعمل ترجمة الصور بناء على مجموعة بيانات FlickrFace11K. لكن النتائج ضعيفة نسبيا حتى بالنسبة لمجموعة بيانات كبيرة. على الرغم من أن النموذج المقترح يحمل درجة CIDEr أعلى بشكل ملحوظ، إلا أن هذا التباين ناتج عن اختلافات في إجراءات التقييم، وإعداد مجموعة البيانات، وتفاصيل التنفيذ.

الطريقةنيزكCIDErروج
فيس-كابف [10]0.17190.23040.4476
الوجه [10]0.17170.23130.4484
فيس-كابيل [11]0.17440.24720.4547
خطوة الوجه [10]0.17450.22830.4504
CSPDN-BiLSTM-SelfAtt [12]0.19320.26170.4793
CNN+RNN+ResNet-152 (مقترح)0.1950.60.396

الجدول 4: مقارنة النتائج بالنسبة ل METEOR وCIDEr وROUGE. يوفر هذا الجدول تحليلا مقارنا لمقاييس تقييم متعددة لتقييم الجودة الدلالية والنحوية للترجمات المكتشة.

الطريقةB1B2B3B4نيزكروج
القالب - التعزيز [13]0.2380.1090.050.0220.0960.249
EfficientNetB0 [14]0.28270.13250.05880.02660.26610.3609
EfficientNetB1 [14]0.2890.14040.06420.02860.2710.3718
ريزنت50 [14]0.26370.12170.04960.02070.24370.3423
موبايل نت V2 [14]0.21060.0640.02150.0090.17940.2606
CNN+RNN+ResNet-152 (مقترح)0.5790.4040.2790.1910.1950.396

الجدول 5: مقارنة النتائج لدرجات BLUE وMETEOR وRUGE. يقدم هذا الجدول مقارنة موحدة لمقاييس التقييم الرئيسية لإظهار الفعالية العامة للنموذج.

وفقا للجدول 5، EfficientNetB114 أفضل ل METEOR، لكن CNN+RNN+ResNet-152 أفضل ل B1-B 4 و ROUGE. بشكل عام، النتيجة المقترحة متفوقة على جميع مقاييس BLEU وROUGE مقارنة بالطرق المذكورة.

توفر البيانات:
جميع البيانات الخام وملفات الترميز المرتبطة بهذه الدراسة متوفرة في الملفات التكميلية.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

في مجال الذكاء الاصطناعي، يعد كتابة الصور مهمة صعبة. لقد كانت ترجمة الصور موضوعا للعديد من الدراسات، ولا تزال الترجمة الحادة أو الدقيقة تتطلب أعلى مستوى من الدقة. يمكن استخدام العديد من تقنيات تعلم الآلة لتحقيق هدف الترجمة التوضيحية للصور، وقد استخدمت العديد من الدراسات CNN وRNN وResNet-152. ومع ذلك، فإن زيادة الدقة وتقليل وقت المعالجة ضرورية. النظام المقترح مبني باستخدام CNN كمشفر، وRNN كجهاز فك الترميز، وTorch Vision كمكتبة، وResNet كنموذج تدريب أساسي. يستخدم ResNet تقنية تخطي الاتصال لاستخدام الطبقات لتحقيق أداء أفضل مقارنة بالنماذج التقليدية الأخرى مثل Face-CapF، Face-Init، Face-Step، Face-CapL، CSPDN-BiLSTM-SelfAtt، Template-Augmentation، EfficientNetB0، EfficientNetB1، MobileNetV2، والعديد من النماذج الأخرى10، 11، 12، 13، 14.

الخطوات الحاسمة في العمل المقترح هي استخدام مرشح ذكي لمسح الصور، ثم استخراج الميزات مع جميع الخطوات الأساسية. بدون استخراج دقيق للميزات، لا يمكن تحقيق هدف النموذج، وإذا فشل النظام في استخراج الميزات بشكل صحيح، فإن دقة درجات القياس تتأثر. لعبت مرحلة التدريب، التي نفذت مع تحليل عميق لمتجهات الميزات وآلية الانتباه، دورا حيويا في فك تشفير بيانات الاختبار. هناك أيضا خطوة مهمة أخرى في العمل، وهي تحديث الصوت الصوتي. عندما تظهر كلمات جديدة أثناء اختبار البيانات، تتم إضافة تلك الكلمات إلى القاموس لتحسين أداء النموذج. لعبت هذه الخطوات الحرجة دورا حيويا في تحقيق دقة أفضل، كانت أعلى من النموذج المقترح سابقا، مثل طريقة تعزيز القالب. قام النظام بتدريب نموذج لمعيار MSCOCO وحصل على نموذج أكثر فعالية لترجمة الصور.

إذا زاد حجم بيانات الاختبار، فقد يكون من الممكن وجود كلمات جديدة مرتبطة بالصور. قد يسبب أيضا عدم الصلة أثناء إنشاء الترجمات، ثم يمكن التعامل معه من خلال آلية الانتباه التي تم استخدامها في النموذج. يمكن تحديث المفردات من خلال آلية انتباه يمكن أن تكون فعالة للتقييم لاحقا. يمكن اعتباره تعلم ذاتي أو معالجة استثناءات. وبما أن النموذج تم تدريبه باستخدام MSCOCO، الذي يحتوي على آلاف الصور الواقعية، هناك العديد من الكائنات التي قد تظهر والتي تحتاج إلى تحديث في كل استنتاج.

أحد عيوب هذا العمل هو أنه، مقارنة بمجموعات البيانات المعاصرة المستخدمة في التدريب، قد يؤدي النموذج أداء ضعيفا على الصور القديمة جدا، خاصة الصور التاريخية بالأبيض والأسود أو منخفضة الجودة، بسبب اختلافات في الميزات البصرية والتباين والملمس. إذا كانت الصور ضعيفة الدقة، يصبح من الصعب استخراج الميزات الدقيقة، وقد يؤدي ResNet-152 إلى تدهور مرحلة الترميز في هذه الحالة. كما أنه يؤدي أداء ضعيفا على الكثير من الصور القديمة، مما يعني أن تلك الصور من العصور القديمة بسبب ضعف أو تلف متجهات الميزات. تشمل القيود تقييم مجموعة بيانات واحدة ونقص التحقق المتبادل.

مقارنة بالأساليب التقليدية، النموذج المقترح أفضل لأنه يعزز استخراج الميزات، وبالتالي يحسن توليد تعليق الصور. الترشيح الذكي يحسن مرحلة استخراج الميزات أو الترميز، مما يبني النموذج بشكل أفضل. يستخدم ResNet-152 أيضا اتصالات تخطي تستفيد من الوقت أثناء التدريب. لذا، التنفيذ أسرع بكثير من النماذج الأخرى مثل EfficientNetB014. آلية الانتباه هي أيضا عامل أساسي يحسن أداء النموذج.

يمكن استخدام هذه التقنية في أنظمة استرجاع الصور، والمراقبة الآلية، والتقنيات المساعدة للأشخاص ذوي الإعاقات البصرية. مع تقدم الذكاء الاصطناعي بسرعة، أصبح من الضروري تحسين نظام استرجاع الصور، ويمكن لهذه التقنية أن تسهم في ذلك. مع هذا النموذج، يمكن للأشخاص ضعاف البصر الحصول على المساعدة في رؤية العالم من خلال ترجمته إلى كلام. هناك عدة تطبيقات مهمة ومحتملة لترجمة الصور.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يعلن المؤلفون أنه لا توجد مصالح مالية متنافسة أو علاقات شخصية قد تكون أثرت على العمل المبلغ عنه في هذه الورقة.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

نشكر مبتكري مجموعات بيانات MSCOCO على توفير المعايير المستخدمة في هذه الدراسة. يعلن المؤلفون أنه لم يتم تلقي أي تمويل خارجي لهذه الدراسة.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
سلسلة AMD Ryzen 5000AMD100-100000059 WOFسلسلة AMD Ryzen 5000 هي سلسلة من المعالجات عالية الأداء طورتها AMD، وتعتمد على بنية Zen 3. تستخدم هذه المعالجات على نطاق واسع في أجهزة الكمبيوتر المكتبية وأجهزة الكمبيوتر المحمولة لكل من الحوسبة العامة والمهام الصعبة مثل معالجة البيانات وسير عمل التعلم الآلي.
وحدة معالجة الرسومياتNVIDIA 4.71933E+12جهاز NVIDIA GeForce GTX هو سلسلة من وحدات معالجة الرسومات (GPUs) التي طورتها شركة NVIDIA، وتستخدم على نطاق واسع في الألعاب وكذلك في مهام الحوسبة العامة مثل التعلم العميق ومعالجة الصور.
إنتل كور i5إنتلBX8071514400Fإنتل كور i5 هو سلسلة معالجات متوسطة المستوى طورتها إنتل، ويستخدم على نطاق واسع في الحواسيب الشخصية في المهام العامة والحاسوبية.
بايثون 3.10مؤسسة بايثون للبرمجياتPEP 619بايثون هي لغة برمجة عالية المستوى ومفسرة تستخدم على نطاق واسع في الحوسبة العلمية، وتحليل البيانات، وتعلم الآلة. يشتهر ببساطته وسهولة قراءته ونظامه البيئي الواسع للمكتبات.
بايتورشفيسبوك26.03-py3بايتورش هو إطار عمل مفتوح المصدر للتعلم العميق تم تطويره بواسطة شركة ميتا بلاتفارمز (المعروفة سابقا باسم فيسبوك)، ويستخدم على نطاق واسع لبناء وتدريب الشبكات العصبية في البحث والصناعة.
كود فيجوال ستوديومايكروسوفتلا شيءكود فيجوال ستوديو (VS Code) هو محرر برمجيات خفيف الوزن ومفتوح المصدر تم تطويره بواسطة مايكروسوفت. يستخدم على نطاق واسع في تطوير البرمجيات، بما في ذلك مشاريع التعلم الآلي والتعلم العميق.
ويندوز 11مايكروسوفتKB5083631ويندوز 11 هو نظام تشغيل طورته مايكروسوفت، ويستخدم على نطاق واسع في الحوسبة العامة بالإضافة إلى تطوير البرمجيات ومهام التعلم الآلي.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Image Caption GenerationDeep LearningResNet ModelSmart FilteringFeature EncodingCNN EncoderRNN DecoderObject ClassificationSemantic AnalysisMSCOCO Dataset

Related Articles