توليد تسمية الصورة باستخدام أساليب التعلم العميق

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

توليد تسمية الصورة باستخدام أساليب التعلم العميق

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يستخدم هذا البروتوكول شبكات CNN وRNNs وResNets لترجمة الصور، واستخراج أوصاف أنشطة الصور، والأشخاص، والأشياء، والعناصر الأخرى. وقد تم تبرير ذلك بدرجات BLUE وCIDEr وMETEOR وROUGE.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

توليد تعليق الصور هو محاولة لتقديم وصف نصي ذي معنى يتضمن صورة. المعلومات المستخرجة ذات صلة بالأنشطة الموجودة في الصور. تشتهر شبكة ResNet (Residual Network) بقدرته على تصنيف الصور، حيث طورت تمثيلات هرمية عميقة. تهدف هذه الورقة إلى استخدام ResNet مع عدة مرشحات ذكية لتصنيف الصور بشكل أعمق، مما يمكن من توليد أوصاف حقيقية وذات معنى دقيقة للغاية بالنسبة للتعليقات المرجعية. هنا، يستخدم العمل تقنية تصفية ذكية لتحسين الصور، وشبكة CNN لترميز الميزات، وتدريب النماذج، ثم شبكة عصبية متكررة (RNN) لفك ترميز الميزات. يعد ResNet نموذجا فعالا جدا لمهام رؤية الحاسوب، خاصة تصنيف الكائنات والتحليل الدلالي. تشتهر ريزنت بالاتصالات المتبقية، والتي تعرف أيضا بالاتصالات المتخطية التي تحل مشكلة تدرج الاختفاء، وهي مشكلة حاسمة في التعلم العميق. هنا، يستخدم معيار MSCOCO (كائن مايكروسوفت المشترك في السياق) لتدريب النموذج، وهو مجموعة بيانات كبيرة مع تعليقات مرجعية مفيدة لمهام رؤية الحاسوب المختلفة. يساعد ResNet في تعزيز قدرة التعميم، وهو أمر مفيد بشكل خاص للصور المتنوعة. وفقا للنتائج التي تم الحصول عليها، درجات BLUE هي B1: 0.579، B2: 0.404، B3: 0.279، B4: 0.191؛ النيزك: 0.195; روج: 0.396; وCIDEr: 0.6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

في مجالات الرؤية الحاسوبية ومعالجة اللغة الطبيعية، يعد كتابة الترجمة مهمة حيوية تستخرج وصفا للصورة والإجراءات التي تظهرها. هدف النموذج هو فهم الصور وترجمة المعلومات إلى جمل أو تعليقات ذات معنى¹. يتكون الإجراء بأكمله من مرحلتين مهمتين: الأولى هي استخراج الميزات، حيث يستخدم نموذج CNN؛ الثاني هو وصف الصورة باستخدام RNN & بينهما، يستخدم ResNet للتحليل الدلالي، وتوليد التسلسلات، وآلية الانتباه. ResNet يختلف كثيرا عن الطرق المعتمدة على القوالب أو الوحدات المبنية على DenseNet لأنه يستخدم اتصالات تخطي تقلل من وقت التنفيذ مع تحسين الأداء. هناك العديد من تطبيقات الترجمة التوضيحية للصور التي تشمل مساعدة الأشخاص ضعاف البصر، وتعزيز منصات التواصل الاجتماعي، ....

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

تم تنفيذ النموذج الرئيسي وهو ResNet-152، مع مشفر كCNN، وفك ترميز ك RNN، وموارد جدول المواد.

ريزنت-152
يعتبر ResNet العمود الفقري لاستخراج الميزات بشكل أكثر كفاءة في ترجمة الصور. قدم ريزنت أداء تدريبيا أفضل من النماذج الأخرى، حيث عالج مشكلة التدرج الاختفائي وحلها بكفاءة. قد تظهر أشياء مختلفة في الصور، ويحتاج النموذج إلى فهم علاقاتها لتحسين الترجمة. لهذا السبب يمكن اعتباره استخراجا هرميا للميزات. يمكن ل ResNet-152 التعامل مع مهام رؤية الحاسوب المعقدة. الميزة الرئيسية لهذا النموذج هي الاستخدام الفعال للاتصالات المتبقية أو التخطي. وهو فعال للغاية في معالجة مشكلة تدرج التدرج المتلاشي. يمكنه تعلم ميزات معقدة و....

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

مواصفات البرمجيات والبيئة
كانت بايثون 3.10 هي لغة البرمجة الرئيسية المستخدمة في التجارب. تم استخدام كود فيجوال ستوديو لإعداد بيئة التطوير (VS Code). تشمل المكتبات المهمة المستخدمة في هذا البحث Pickle لتسلسل البيانات، والمعالجة المتعددة للمعالجة المتوازية، وGlob لمعالجة الملفات، وPyTorch لتطوير نماذج التعلم العميق. تضمن تكوين الأجهزة 256 جيجابايت من التخزين، و8 جيجابايت من الذاكرة، وبطاقة رسومات من سلسلة NVIDIA GTX مع دعم CUDA للحوسبة السريعة. تم استخدام حاسوب يعمل إما بمعالج AMD Ryzen 5000 أو معالج In.......

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

في مجال الذكاء الاصطناعي، يعد كتابة الصور مهمة صعبة. لقد كانت ترجمة الصور موضوعا للعديد من الدراسات، ولا تزال الترجمة الحادة أو الدقيقة تتطلب أعلى مستوى من الدقة. يمكن استخدام العديد من تقنيات تعلم الآلة لتحقيق هدف الترجمة التوضيحية للصور، وقد استخدمت العديد من الدراسات CNN وRNN وResNet-152. ومع ذلك، فإن زيادة الدقة وتقليل وقت المعالجة ضرورية. النظام المقترح مبني باستخدام CNN كمشفر، وRNN كجهاز فك الترميز، وTorch Vision كمكتبة، وResNet كنموذج تدريب أساسي. يستخدم ResNet تقنية تخطي الاتصال .......

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يعلن المؤلفون أنه لا توجد مصالح مالية متنافسة أو علاقات شخصية قد تكون أثرت على العمل المبلغ عنه في هذه الورقة.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

نشكر مبتكري مجموعات بيانات MSCOCO على توفير المعايير المستخدمة في هذه الدراسة. يعلن المؤلفون أنه لم يتم تلقي أي تمويل خارجي لهذه الدراسة.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	سلسلة AMD Ryzen 5000 هي مجموعة من المعالجات عالية الأداء التي طورتها AMD، وتستند إلى بنية Zen 3. تُستخدم هذه المعالجات على نطاق واسع في أجهزة الكمبيوتر المكتبية والمحمولة لكل من الحوسبة العامة والمهام المتطلبة مثل معالجة البيانات وورش عمل التعلم الآلي.
GPU	NVIDIA	4.71933E+12	NVIDIA GeForce GTX هي سلسلة من وحدات معالجة الرسومات (GPUs) التي طورتها NVIDIA، وتستخدم على نطاق واسع للألعاب وكذلك مهام الحوسبة العامة مثل التعلم العميق ومعالجة الصور.
Intel Core i5	Intel	BX8071514400F	Intel Core i5 هي سلسلة معالجات متوسطة المدى طورتها Intel، وتستخدم على نطاق واسع في أجهزة الكمبيوتر الشخصية لكل من المهام العامة والحسابية.
Python 3.10	Python Software Foundation	PEP 619	Python هي لغة برمجة تفسيرية عالية المستوى تستخدم على نطاق واسع في الحوسبة العلمية، وتحليل البيانات، والتعلم الآلي. وهي معروفة ببساطتها، وقابليتها للقراءة، والنظام البيئي الشامل من المكتبات.
PyTorch	Facebook	26.03-py3	PyTorch هو إطار عمل تعلم عميق مفتوح المصدر طورته Meta Platforms (سابقًا Facebook)، ويستخدم على نطاق واسع لبناء وتدريب الشبكات العصبية في البحث والصناعة.
Visual Studio Code	Microsoft	None	Visual Studio Code (VS Code) هو محرر كود خفيف الوزن ومفتوح المصدر طورته Microsoft. ويستخدم على نطاق واسع لتطوير البرمجيات، بما في ذلك مشاريع التعلم الآلي والتعلم العميق.
Windows 11	Microsoft	KB5083631	Windows 11 هو نظام تشغيل طورته Microsoft، ويستخدم على نطاق واسع للحوسبة العامة وكذلك مهام تطوير البرمجيات والتعلم الآلي.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

توليد تسمية الصورة باستخدام أساليب التعلم العميق

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles