شبكة تقسيم السلائل بناء على التواء الدواء والانتباه المزدوج لتشخيص آفات ما قبل سرطانية في القولون والمستقيم

Ning Du; Xinqi Liu; Li Ji; Chuijie Wang

doi:10.3791/71178

Method Article

شبكة تقسيم السلائل بناء على التواء الدواء والانتباه المزدوج لتشخيص آفات ما قبل سرطانية في القولون والمستقيم

DOI:

10.3791/71178

⸱

June 26th, 2026

Ning Du*¹ , Xinqi Liu*¹ , Li Ji² , Chuijie Wang³

¹National Cancer Center/National Clinical Research Center for Cancer/Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, ²Xinglin College of Liaoning University of Traditional Chinese Medicine, ³Liaoning University of Traditional Chinese Medicine Affiliated Hospital

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ينفذ هذا البروتوكول شبكة تعلم عميق على شكل حرف U تدمج الالتفاف الدوامي، والانتباه المزدوج، والاندماج متعدد المقاييس لتقسيم سلائل القولون والمستقيم.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يعد تقسيم دقيق لسائلات القولون والمستقيم أمرا بالغ الأهمية للوقاية المبكرة والتشخيص لسرطان القولون والمستقيم. ومع ذلك، وبسبب التنوع الكبير في السلائل من حيث الشكل والحجم والملمس، بالإضافة إلى تعقيد بيئة الأمعاء (مثل الطيات، الانعكاسات المرآتية، وبقايا البراز)، لا تزال الطرق الحالية تواجه تحديات كبيرة في تحديد موقع الحدود واكتشاف السلائل الصغيرة. لمعالجة هذه القضايا، تقترح هذه الورقة شبكة تقسيم السلائل تعتمد على الالتفاف الدوجي والانتباه المزدوج (PWD-Net). تعتمد الشبكة المقترحة بنية مشفر-فك تشفير على شكل U، حيث يستخدم شبكة ResNet مدربة مسبقا كمشفر لاستخراج ميزات محلية متعددة المستويات. على وجه التحديد، يتم إدخال وحدة الالتفاف الدواسة (PCM) في طبقة عنق الزجاجة لالتقاط البنية الهندسية العالمية والمعلومات السياقية متعددة الاتجاهات للسلائل من خلال نوى الالتفاف متعددة الزوايا المدورة. آلية الانتباه المزدوج (DAM) التي تدمج انتباه القناة والانتباه المكاني مصممة لقمع الضوضاء الخلفية بشكل تكيفي وتعزيز ميزات منطقة البوليب. بالإضافة إلى ذلك، تستخدم استراتيجية دمج الميزات متعددة المقاييس (MSF) لدمج المعلومات الدلالية العميقة مع تفاصيل الحدود السطحية، مما يضمن اكتمال ودقة نتائج التقسيم. تظهر التجارب التي أجريت على مجموعتي بيانات Kvasir-SEG و CVC-ClinicDB أن PWD-Net يحقق متوسط معاملات نرد 0.865 و0.944، ودرجات IoU 0.765 و0.892 على التوالي، متفوقا بشكل ملحوظ على الطرق الحديثة الحالية. تؤكد دراسات الاستئصال فعالية كل وحدة، وتؤكد التقييمات عبر مجموعات البيانات القدرة القوية على التعميم للنموذج. توفر هذه الدراسة حلا عالي الدقة وقويا لتقسيم السلائل السريري، مما يوفر قيمة كبيرة للتشخيص المبكر للآفات ما قبل سرطانية القولون والمستقيم ويدعم التدخل بمساعدة الحاسوب.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

يعد سرطان القولون والمستقيم من أكثر الأورام الخبيثة شيوعا في العالم، مع معدلات حدوث ووفيات مرتفعة باستمرار. أظهرت الدراسات أن معظم سرطانات القولون والمستقيم تتطور من السلائل الغدية، وهي عملية تستغرق عادة من 10 إلى 15 سنة، مما يوفر نافذة زمنية قيمة للكشف المبكر والتدخل. يمكن أن يؤدي زيادة بنسبة 1٪ في معدل الكشف عن الورم الغدي (ADR) إلى تقليل خطر الإصابة بسرطان القولون والمستقيم بحوالي 3٪، مما يقلل بشكل كبير من وفيات المرضى¹. يعتبر تنظير القولون المعيار الذهبي لفحص سرطان القولون والمستقيم، مما يتيح إزالة السلائل مباشرة أثناء الفحص، مما يقلل بشكل فعال من حدوث السرطان والوفيات.

ومع ذلك، يعتمد تنظير القولون التقليدي بشكل كبير على خبرة ومستوى مهارة أخصائيي التنظيف. عوامل مثل الحكم الذاتي، والإرهاق البصري، والتشتت قد تؤدي إلى معدل فشل يتراوح بين 20٪–30٪، مما يؤثر بشكل مباشر على فعالية الفحص². لذلك، فإن تطوير أنظمة الكشف بمساعدة الحاسوب (CAD) للتقسيم التلقائي لسليلات القولون والمستقيم يحمل أهمية كبيرة لتحسين ADR وتقليل التشخيصات الفائتة. سلطت الدراسات السريرية الأخيرة الضوء أكثر على الاهتمام بدمج الذكاء الاصطناعي في سير عمل تقييم الآفات بالمنظار، مما يعزز الحاجة إلى طرق تقسيم قوية وقابلة للتكرار³.

في السنوات الأخيرة، حقق التعلم العميق تقدما ملحوظا في تحليل الصور الطبية، لا سيما الشبكات العصبية الالفافية (CNNs)، التي تظهر قدرة قوية على استخراج وتمثيل الميزات لمهام تقسيم الصورة⁴. كنموذج تقليدي لتقسيم الصور الطبية، يستخدم U-Net بنية مشفر-فك تشفير متماثلة ويتجاوز الاتصالات لتحقيق تقسيم دقيق على مستوى البكسل، ليصبح معيارا في^{هذا المجال.} استنادا إلى U-Net، تم اقتراح العديد من البنى المحسنة لمعالجة مهام تقسيم الصور الطبية المعقدة. تقلل UNet++ الفجوة الدلالية بين خرائط ميزات المشفر ومفكك الترميز من خلال إدخال اتصالات تخطي متداخلة^{وكثيفة 6}. يدمج ResUNet++ الكتل المتبقية، ووحدات الضغط والإثارة، والتداخلات المتوسعة، وآليات الانتباه، محققا أداء قويا في تقسيم السلائل⁷. تعتمد U^2-Net هيكلا متداخلا على شكل U من مستويين لالتقاط معلومات الميزات متعددة المقاييس⁸. مؤخرا، تم اقتراح شبكة تقسيم سلائل عميقة تعتمد على الترميز ومفك الترميز المزدوج، تستفيد من مسارات الترميز وفك الترميز المتوازي لتعزيز دقة التقسيم⁹.

وفي الوقت نفسه، يوفر إدخال آليات الانتباه حلولا جديدة لتعزيز الميزات وقمع الضوضاء. يستخدم الانتباه يو-نت بوابات الانتباه للتركيز على المناطق المستهدفة مع قمع المعلومات الخلفية غير ذات الصلة¹⁰. شبكة الانتباه المزدوج (DANet) تثقل الميزات بشكل تكيفي من أبعاد القناة والأبعاد المكانية¹¹، مما يحسن إدراك الميزات الحرجة. تعزز شبكات الانتباه الثلاثي (TANet) أداء التقسيم من خلال الاختيار التكيفي للميزات متعددة المقاييس¹².

مع نجاح بنى المحولات في معالجة اللغة الطبيعية ورؤية الحاسوب¹³، بدأ الباحثون في استكشاف تطبيقها في تقسيم الصور الطبية. كانت ترانس يونيت أول من استخدم محول كمشفر لنمذجة التبعيات طويلة المدى بفعالية¹⁴. تعتمد Swin-UNet بنية ترانسفورمر نقية وتحقق تجميعا عالميا للمعلومات بكفاءة من خلال آلية النافذة المتغيرة¹⁵. يقترح UTNet بنية هجينة تجمع بين قدرة استخراج الميزات المحلية لشبكات CNN مع القدرة العالمية على النمذجة في Transformers¹⁶.

في مجال تقسيم السلائل، يستخدم Polyp-PVT محول رؤية هرم لالتقاط المعلومات الدلالية العالمية متعددة المقاييس¹⁷، بينما يعزز UNet المتداخلة متعددة المقاييس الفهم السياقي من خلال دمج ترانسفورمرز¹⁸. كما استكشفت الدراسات الحديثة استراتيجيات التعلم السلبي للارتباط السلبي لتقسيم السلائل عبر المجالات¹⁹، وتعزيز التقسيم المعزز بجومبرتز²⁰، والهياكل القائمة على الانتباه التي تتضمن توجيه الحدود²¹. على الرغم من أن هذه الأساليب تحسن أداء التقسيم إلى حد ما، إلا أن تقسيم السلائل لا يزال يواجه عدة تحديات. أولا، تظهر السلائل تباينا عاليا في الشكل والحجم والملمس، تتراوح من سلائل دقيقة أصغر من 5 مم إلى سلائل كبيرة تتجاوز 30 مم، مع أشكال تتراوح من الدائرية والهليلجية إلى أشكال غير منتظمة للغاية. ثانيا، البيئة المعوية معقدة ومتغيرة، حيث تسبب طيات المخاط، الانعكاسات المرآتية، بقايا البراز، وبقايا الطعام تداخلا خلفيا شديدا. ثالثا، العديد من السلائل لها حدود غير واضحة، أو قد تكون محجوبة جزئيا بطيات، أو مغمورة في سوائل الأمعاء، مما يجعل تحديد تحديد الحدود بدقة أمرا صعبا للغاية²².

لا تزال الطرق الحالية تفرض قيودا واضحة في مواجهة هذه التحديات. شبكات CNN التقليدية فعالة في استخراج الملمس المحلي وميزات الحواف؛ ومع ذلك، فإن نوى الالتفاف المربع الثابت ليست مناسبة جيدا لالتقاط أشكال هندسية متنوعة²³، خاصة للسلائل غير المنتظمة للغاية، ولا يمكنها نمذجة الميزات الهندسية متعددة الاتجاهات بفعالية. يمكن لطرق المحول نمذجة الاعتماديات العالمية لكنها أقل فعالية في التقاط التفاصيل المحلية الدقيقة ومعلومات الحدود. علاوة على ذلك، فإن تعقيدها الحسابي العالي يجعلها أقل ملاءمة^{للتطبيقات} السريرية في الوقت الحقيقي. الأساليب الحديثة لتقسيم السلائل مثل PraNet، التي تستخدم وحدات الانتباه العكسي لتحسين المناطق الرئيسية²⁵، وشبكات الانتباه المتسلسل الموجهة بالحدود التي تعزز استخراج ميزات الحدود²⁶، وCAFE-Net، التي تدمج ميزات المشفر والمفكك عبر آليات الانتباه^{المتقاطع 27}، لا تزال تواجه تمثيلا غير كاف للميزات وتحديد موقع حدود غير دقيق عند التعامل مع السلائل الصغيرة²⁸، حدود ضبابية، وخلفيات معقدة. علاوة على ذلك، تتجاهل معظم الطرق الشكل الهندسي وتفشل في استغلال المعلومات السياقية متعددة الاتجاهات بشكل كامل، مما يؤدي إلى تقسيم غير مثالي للسلائل غير المنتظمة.

باختصار، تفتقر الطرق الحالية القائمة على CNN إلى القدرة على التقاط ميزات هندسية متعددة الاتجاهات بسبب اعتمادها على نوى الالتفاف المربعة الثابتة. تقدم الأساليب القائمة على المحولات نمذجة عالمية لكنها تضحي بدقة الحدود المحلية وتفرض تكاليف حسابية عالية. وفي الوقت نفسه، لم يتم تحسين استراتيجيات الاندماج المعززة بالانتباه ومتعددة المقاييس بشكل مشترك ضمن إطار موحد مصمم خصيصا لتقسيم السلائل²⁹. هذه الفجوات تحفز تطوير طريقة تعالج في الوقت نفسه نمذجة الميزات الهندسية، وقمع الضوضاء التكيفي، وتكامل الميزات عبر المقاييس.

لمعالجة هذه القضايا، يقدم هذا البروتوكول شبكة تقسيم السلائل تعتمد على الالتفاف الدوجي والانتباه المزدوج (PWD-Net). تدمج الشبكة المقترحة نمذجة الميزات الهندسية، وتعزيز الانتباه متعدد الأبعاد، ودمج الميزات متعددة المقاييس، مما يتيح تقسيم دقيق للسلائل المعقدة. تلخص المساهمات الرئيسية لهذا العمل كما يلي: وحدة الالتفاف الدوارة (PCM)، المستوحاة من بنية الدولاب الدبابيس، يقترح تصميم نواة الالتفاف المدورة الجديدة التي تلتقط الميزات الهندسية متعددة الاتجاهات للسلائل من خلال عمليات الالتفاف بزوايا متعددة (0°، 45°، 90°، 135°، 180°، 225°، 270°، و315°). تحل هذه الوحدة محل طبقة الالتفاف التقليدية في مرحلة عنق الزجاجة، مما يتيح إدراكا فعالا لاتجاهات الحواف المختلفة ويحسن بشكل كبير تمثيل السلائل ذات الأشكال غير المنتظمة. آلية الانتباه المزدوج (DAM) تعالج الضوضاء الخلفية مثل الطيات، الانعكاسات، وبقايا البراز في صور تنظير القولون. تم تصميم وحدة تركيز مزدوج تدمج انتباه القناة والانتباه المكاني. مدمجة داخل اتصالات التخطي، تقوم هذه الوحدة بقمع التداخل الخلفي بشكل تكيفي وتعزز استجابات الميزات في مناطق البوليب من خلال تحديد "ما" المهم (بعد القناة) و"أين" الهدف (البعد المكاني)، مما يضمن أن الميزات المحسنة فقط هي التي تدخل في الاندماج اللاحق. تحافظ استراتيجية دمج الميزات متعددة المقاييس (MSF) على كل من المعلومات الدلالية العميقة وتفاصيل الحدود الضحلة من خلال آلية هرمية تم إدخالها في جهاز فك الترميز. من خلال دمج ميزات الترميز المحسنة ب DAM مع ميزات فك التشفير المعززة بعينة أعلى، تعوض هذه الاستراتيجية بشكل فعال عن فقدان التفاصيل المكانية الناتج عن تقليل العينة، مما يمكن الكشف الدقيق عن السلائل الصغيرة وتحديد الحدود بدقة.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

تستخدم هذه الدراسة فقط مجموعات بيانات صور تنظير القولون المجهولة الهوية المتاحة للجمهور (Kvasir-SEG). لم يتم جمع بيانات جديدة من البشر. لم تكن هناك حاجة لموافقة أخلاقيات المؤسسات وموافقة المريض المستنيرة، كما أكدت سياسات المراجعة المؤسسية للتحليلات الرجعية لمجموعات البيانات العامة غير المحددة هوية.

1. تحضير البيانات

حمل مجموعة بيانات Kvasir-SEG من المستودع الرسمي 33 (https://datasets.simula.no/kvasir-seg/). تحتوي مجموعة البيانات على 1000 صورة بوليب مع أقنعة حقيقة أرضية على مستوى البكسل المقابلة.
قسم مجموعة البيانات عشوائيا إلى مجموعات تدريب (800 صورة)، والتحقق (100 صورة)، ومجموعات اختبار (100 صورة) بنسبة 8:1:1 باستخدام بذرة عشوائية ثابتة (seed = 42). تحقق من عدم وجود صور متداخلة عبر المجموعات الثلاث الفرعية لمنع تسرب البيانات.
إعادة تكبير جميع الصور والأقنعة المقابلة إلى 352 × 352 بكسل باستخدام الاستيفاء الثنائي الخطي للصور واستيفاء أقرب جار للأقنعة.
قم بتطبيع قيم البكسل إلى [0, 1] عن طريق القسمة على 255، ثم تطبيق طرح متوسط ImageNet على قناة (0.485، 0.456، 0.406) وتطبيع الانحراف المعياري (0.229، 0.224، 0.225).
تطبيق التحولات التعزيزية التالية على مجموعة التدريب فقط (وليس على مجموعات التحقق أو الاختبار): الانقلاب الأفقي العشوائي (الاحتمالية = 0.5); الانقلاب العمودي العشوائي (الاحتمالية = 0.5)؛ الدوران العشوائي (النطاق: −30° إلى +30°، الاحتمالية = 0.5)؛ تغيير الحجم العشوائي متعدد المقاييس (عامل المقياس: 0.75 إلى 1.25، الاحتمالية = 0.5)
ملاحظة: تطبيق تحويلات مكانية متطابقة على كل من الصورة وقناعها المقابل للحفاظ على المحاذاة. تحقق من صحة التعزيز من خلال فحص عدة أزواج من الصور والقناع المعززة بصريا قبل بدء التدريب.

2. العمارة العامة

ملاحظة: راجع الشكل 1 للعمود الفقري للترميز-فك الترميز على المستوى الكلي ل PWD-Net، وإلى الشكل 2 لتكامل وتفاعل الوحدات الأساسية ضمن تدفق الميزات. تتبع البنية العامة تصميم مشفر-فك التشفير على شكل حرف U للتعامل مع تغيرات مقياس السلائل والتداخل الخلفي في صور تنظير القولون.

العمود الفقري ومسار الترميز (الشكل 1)
1. استخدم جهاز ResNet-50 المدرب مسبقا على ImageNet (مستورد من حديقة النماذج الرسمية ل PyTorch) كمشفر العمود الفقري30. قم بضبط جميع طبقات الترميز أثناء التدريب.
2. قم بتغذية صورة القولون المدخلة (التي تم تعديلها إلى 352 × 352 بكسل) عبر خمس مراحل من الكتل الالفافية المتبقية لاستخراج الميزات الهرمية. يتم تقليل الدقة المكانية لخرائط الميزات تدريجيا من إلى عبر المراحل الخمس، بينما تزداد أبعاد القنوات تتناسب مع ذلك (64 → 128 → 256 → 512 → 1024).
3. عند عنق الزجاجة (أعمق طبقة مشفرة)، استبدل الطبقة الالفافية القياسية بوحدة الالتفاف الدواء (PCM، الموضحة في القسم 3) لالتقاط الشكل الهندسي العالمي والمعلومات السياقية متعددة الاتجاهات بدقة منخفضة.
  ملاحظة: المراحل الخمس للترميز تتوافق مع مجموعات الطبقات القياسية ل ResNet-50: conv1، الطبقة 1، الطبقة 2، الطبقة 3، والطبقة 4. توفر الأوزان المدربة مسبقا تهيئة ميزات قوية على المستوى المنخفض والمتوسط، مما يقلل من وقت التقارب في مجموعات البيانات الطبية الصغيرة.
المكونات الرئيسية وتفاعل الميزات (الشكل 2 والشكل 3)
1. تطبيق آلية الانتباه المزدوج (DAM، الموضحة في القسم 4) على مخرجات كل مرحلة من مراحل المشفر قبل نقلها إلى جهاز فك التشفير عبر اتصالات تخطي. تقوم هذه الخطوة بشكل تكيفي بكبت الضوضاء الخلفية الناتجة عن طيات الأمعاء وانعكاسات الانعكاسات المرآتية، مع تعزيز استجابة الخصائص في مناطق البوليب. يتم تمرير الميزات المصفاة فقط إلى طبقة فك التشفير المقابلة.
2. في جهاز فك الترميز، تستعيد الدقة المكانية تدريجيا من خلال الأخذ في العينات الثنائية الخطية. في كل طبقة فك ترميز، قم بدمج الميزات التي تم رفع عينة من مرحلة فك الترميز السابقة مع ميزات الترميز المعززة ب DAM ذات نفس الدقة المكانية.
3. تطبيق طبقتين التفافيتين متتاليتين (كل واحدة تليها تطبيع دفعي وتفعيل ReLU) لدمج المعلومات متعددة المقاييس. يشكل هذا استراتيجية دمج الميزات متعددة المقاييس (MSF) الموضحة في القسم 5.
  ملاحظة: يتقدم جهاز فك الترميز من الطبقات العميقة إلى الطبقات الضحلة (المرحلة 5 → المرحلة 1)، مما يضمن دمج معلومات تحديد الموقع الدلالي العميق وتفاصيل الحدود الضحلة بشكل فعال في كل مستوى.
توليد المخرجات
1. تطبيق طبقة الالتفافية تليها دالة تفعيل سيجمويد على خرج فك التشفير النهائي لتوليد قناع التنبؤ.
2. قم بثنائية قناع التنبؤ باستخدام عتبة 0.5 للحصول على نتيجة التقسيم النهائية، حيث يتم تصنيف البكسلات ذات الاحتمالية المتوقعة ≥ 0.5 كسلائل سلائل وبقية البكسلات كخلفية.

3. وحدة الالتفاف العجلة (الشكل 3)

تستبدل وحدة الالتفاف الدوجين (PCM) الالتفاف الزجاجي القياسي لالتقاط الميزات الهندسية متعددة الاتجاهات للسلائل. نفذ هذه الوحدة كما يلي:
1. حدد نواة الالتفاف الأساسية W بحجم 3 × 3 مع C_في قنوات الإدخال وC قنوات_{الإخراج} .
2. حدد مجموعة زوايا الدوران Θ = {0°، 45°، 90°، ...، 315°}. لكل زاوية θ ∈ Θ، تولد النواة المدورة W_θ بتطبيق دوران قائم على الاستيفاء الثنائي الخطي على W. جميع النوى الثمانية المدورة تشترك في نفس المعلمات الأساسية؛ فقط الترتيب المكاني للأوزان يختلف.
3. لكل زاوية θ، احسب خريطة الميزات الخاصة بالاتجاه:
  
  حيث X هي خريطة ميزات الإدخال.
4. اجمع خرائط الميزات الثمانية الاتجاهية عن طريق التسلسل على قناة على محور القناة، لإنتاج موتر ذو بعد (8 × C_{إلى خارج}) × H × W. ثم تطبيق التفاف 1 × 1 لتقليل بعد القناة إلى_{C out}، يليه تطبيع دفعي وتفعيل ReLU³¹:
  
  ملاحظة: يتم تنفيذ الدوران والاستيفاء على أوزان النواة، وليس على خريطة ميزات الإدخال. يتيح هذا التصميم استخراج ميزات متعددة الاتجاهات بكفاءة المعلمات دون زيادة دقة الإدخال. في التطبيق الحالي، C_in = 1024 وC_out = 1024 في مرحلة عنق الزجاجة، مما يطابق بعد قناة الإخراج لطبقة ResNet-504. راجع حزمة الكود الإضافية للتنفيذ الكامل.

4. آلية الانتباه المزدوج (الشكل 4)

ملاحظة: آلية الانتباه المزدوج (DAM) مدمجة داخل كل اتصال تخطي لقمع الضوضاء الخلفية وتعزيز ميزات منطقة البوليب من أبعاد القناة والمكان.

انتباه القناة
يحدد فرع انتباه القناة أي القنوات المميزة هي الأكثر إفادة. بالنظر إلى ميزة الإدخال F ∈ R^C×H×W:
1. ضغط الأبعاد المكانية عبر تجميع المتوسط العالمي للحصول على واصف قناة z ∈ R^C×1×1.
2. مرر z عبر طبقة من MLP (طبقات متصلة بالكامل) بنسبة اختزال r = 16. الطبقة الأولى تقلل البعد من C إلى C/16 مع تفعيل ReLU؛ الطبقة الثانية تستعيده من C/16 إلى C مع تنشيط سيجمويد لإنتاج متجه وزن القناة A_c:
  
  حيث δ تشير إلى ReLU وتشير σ إلى سيغمويد.
الانتباه المكاني
يحدد فرع الانتباه المكاني أماكن المناطق المستهدفة:
1. طبق كل من التجميع الأقصى والتجميع المتوسط على طول بعد القناة لإنشاء خريطتين ميزات ثنائية الأبعاد بحجم 1 × H × W.
2. ادمج الدالتين على محور القناة لتشكيل موتر 2 × H × W. تطبيق طبقة التفافية بحجم 7 × 7 تليها تفعيل السيغمويد لإنتاج خريطة الوزن المكاني A_s ∈ R^1×H×W:
فيتش فيوجن
1. دمج مخرجات القناة والانتباه المكاني مع ميزة الإدخال من خلال الضرب على العنصر:
  
  حيث α و β هما معاملات توازن قابلة للتعلم، كلاهما مهيأ إلى 0.5 ويتم تحديثهما معا مع معلمات الشبكة عبر تحسين قائم على التدرج أثناء التدريب.
  ملاحظة: راجع حزمة الكود التكميلية (dam_module.py) للتنفيذ الكامل.

5. دمج الميزات متعدد المقاييس

تطبيق استراتيجية دمج الميزات متعددة المقاييس (MSF) في جهاز فك التشفير لمعالجة فقدان التفاصيل المكانية في الميزات العميقة. في كل مرحلة من مراحل فك الترميز، قم بأداء ما يلي:
قم بزيادة نموذج خريطة الميزة من مرحلة فك التشفير السابقة بمقدار 2 باستخدام الاستيفاء الثنائي الخطي.
قم بدمج الميزات التي تم رفع عينات منها مع ميزات المشفر المحسنة بواسطة DAM ذات الدقة المكانية المقابلة على محور القناة.
تطبيق طبقتين التفافيتين متتاليتين من 3 × 3 (كل واحدة تليها تطبيع دفعي وتفعيل ReLU³²) لدمج الميزات المتراكمة.
ملاحظة: يضمن هذا الدمج عبر المستويات الحفاظ على تفاصيل حدود السلائل (التي توفرها ميزات المشفر السطحية) وتحديد الموقع الدلالي (الذي توفره الميزات العميقة) في الوقت نفسه، مما يولد نتائج تقسيم دقيقة الحبيبات.

6. وظيفة الفقدان وتكوين التدريب

دالة الخسارة
1. يتم اعتماد دالة فقدان هجينة L_total لتحسين الشبكة بشكل مشترك، معالجة اختلال التوازن الشامل بين المقدمة–الخلفية في تقسيم السلائل.
  يقيس فقدان الإنتروبيا المتقاطعة الثنائية (L_BCE) دقة التصنيف على مستوى البكسلات:
  
  حيث N هو العدد الكلي للبكسلات، وy_i ∈ {0,1} هو تسمية الحقيقة الأرضية، وŷ_i ∈ [0,1] هو الاحتمال المتوقع.
2. فقدان النرد (L_Dice) يقيس تشابه المجموعات بين المناطق المتوقعة ومنطقة الحقيقة الأرضية:
  
  حيث ε هو عامل تنعيم (مضبوط على 1 × 10⁻⁵) لتجنب القسمة على الصفر.
  اضبط λ = 0.5 لموازنة مساهمات الفصلين الخاسرين.
تكوين التدريب
1. قم بتهيئة المشفر بأوزان ResNet-50 المدربة مسبقا على ImageNet. تهيئة جميع طبقات فك الترميز، ومعلمات PCM، وDAM باستخدام تهيئة كايمينغ الموحدة.
2. قم بتكوين المحسن وجدول التدريب كما يلي. استخدم محسن آدم مع β₁ = 0.9 و β₂ = 0.999. اضبط معدل التعلم الأولي إلى 1 × 10⁻⁴. طبق جدول معدل التعلم بالجيب التمام، حيث_{T max} = 50 و η_min = 1 × 10⁻⁶. استخدم حجم دفعة 16 ودرب النموذج لخمس فترة من الحقبة.
3. درب النموذج لمدة 50 حقبة على مجموعة التدريب (800 صورة). في نهاية كل حقبة، يتم تقييم النموذج على مجموعة التحقق (100 صورة) باستخدام معامل Dice كمقياس مراقبة أساسي.
4. احفظ نقطة التحقق في النموذج التي تحقق أعلى معامل نرد في مجموعة التحقق. استخدم هذه النقطة كنموذج نهائي لجميع التقييمات اللاحقة على مجموعة الاختبار.
  ملاحظة: التوقف المبكر غير مطبق بشكل صريح. استراتيجية اختيار نقاط التحقق من النرد لأفضل تحقق من حيث الاعتماد هي معيار اختيار النموذج. تجرى جميع التجارب باستخدام بيئة الأجهزة والبرمجيات المحددة في جدول المواد. التدريب على 50 فترة على 800 صورة يستغرق حوالي ساعتين ضمن التكوين المذكور. يتم الحصول على جميع النتائج المبلغ عنها من تجربة تدريب واحدة باستخدام البذرة العشوائية المحددة (البذرة = 42). راجع حزمة الكود الإضافية للحصول على نص التدريب الكامل.

7. الشيفرة الزائفة

استخدم خوارزمية 1 كخريطة سير عمل كاملة لشبكة PWD. مطابقة كتل PCM وDAM والبنية الرئيسية وخط أنابيب التدريب في الخوارزمية مع الملفات المقابلة في حزمة الكود التكميلية.
نفذ كتلة PCM الموضحة في الأسطر من 4 إلى 12. تعريف نواة الالتفاف الأساسية 3 × 3 وتوليد ثماني نوى مدورة عند 0°، 45°، 90°، 135°، 180°، 225°، 270°، و315° باستخدام الاستيفاء الثنائي.
احتفظ بنفس المعايير الأساسية القابلة للتعلم لجميع نوى PCM المدوارة. لكل زاوية دوران، احسب خريطة ميزة خاصة بالاتجاه.
قم بدمج خرائط ميزات PCM الثمانية على طول بعد القناة. قم بتطبيق التفاف 1 × 1، وتطبيع دفعي، وتفعيل ReLU لاستعادة بعد القناة الأصلي.
نفذ كتلة DAM الموضحة في الأسطر 14 إلى 19. تطبيق تجميع المتوسط العالمي لتوليد واصف القناة، ثم مرره عبر MLP من طبقتين بنسبة تقليل 16 للحصول على أوزان القنوات.
قم بإنشاء خريطة الانتباه المكاني عن طريق تطبيق تجميع متوسط على قناة وأقصى تجمع على ميزة الإدخال. ادمج الخريطتين ومعالجتهما بالتفاف 7 × 7 يليه تفعيل السيغمويد.
دمج قناة DAM ومخرجات الانتباه المكاني مع ميزة الإدخال باستخدام ضرب العناصر على حدة. وزن خريطتي الانتباه بمعاملين قابلين للتعلم α و β، وكلاهما مهيأ إلى 0.5.
ابن البنية الرئيسية لشبكة PWD الموضحة في الأسطر 21 إلى 32. مرر صورة الإدخال عبر خمس مراحل من مشفر ResNet 50 المدرب مسبقا للحصول على e1 إلى e5، مع انخفاض الدقة المكانية من H × W إلى H/32 × W/32.
ضع PCM على E5 عند عنق الزجاجة. قم بتطبيق DAM على e1 إلى e4 قبل إرسال هذه الميزات إلى جهاز فك التشفير عبر اتصالات تخطي.
فك شفرة خريطة الميزات من الطبقات العميقة إلى السطحية. عند كل مستوى فك ترميز، قم برفع عينة الميزة السابقة، وربطها بميزة الترميز المحسنة DAM المقابلة، وتطبيق DoubleConv لدمج الميزات.
توليد مخرج التقسيم باستخدام الالتفاف 1 × 1 يليه تفعيل السيجمويد. استخدم خريطة الاحتمالات بالبكسل كقناع متوقع.
نفذ حلقة التدريب الموضحة في الأسطر 34 إلى 39. في كل حقبة، قم بتنفيذ الانتشار عبر شبكة PWD وحساب القناع المتوقع.
احسب خسارة التدريب كخسارة 0.5 مضمرة BCE زائد 0.5 x خسارة نرد. قم بتحديث جميع المعلمات القابلة للتعلم باستخدام محسن آدم من خلال الانتشار العكسي.

الخوارزمية 1: تقسيم السلائل الشبكية إلى PWD
1: الإدخال: صورة تنظير القولون I ∈ R^H×W×3
2: الإنتاج: قناع التجزئة M ∈ {0,1}^(H×W)
3:
4: الوظيفة وحدة الالتفاف العجلة PCM(X) ▷
5: حدد نواة القاعدة W (3 × 3)، الزوايا Θ = {0°، 45°، ...، 315°}
6: لكل θ ∈ Θ قم
7: W_θ ← تدوير ثنائي الخط(W, θ) ▷ نواة التدوير
8: Y_θ ← Conv2d(X, W_θ) ▷ الميزات الخاصة بالاتجاه
9: نهاية ل
10: Y_← ReLU(BN(Conv1 × 1(Concat({_{Y θ}})))) ▷ Aggregate
11:_{إرجاع Y}
12: دالة النهاية
13:
14: الوظيفة DAM(F) ▷ آلية الانتباه المزدوج
15: A_c ← سيغمويد (MLP(AvgPool(F))) ▷ انتباه القناة (r=16)
16: A_s ← Sigmoid (Conv7 × 7([AvgPool(F)؛ MaxPool(F)])) ▷ الانتباه المكاني
17: F' ← F ⊗ (α · A_c + β · A_s) ▷ الاندماج مع α قابل للتعلم، β (init=0.5)
18: العودة F'
19: نهاية الدالة
20:
21: الوظيفة PWD-Net(I)
22: المشفر: e₁،_{e 2}،_{e 3}،_{e 4}، e₅ ← ResNet50_Stages(I) ▷ مشفر مدرب مسبقا بخمس مراحل
23: عنق الزجاجة: b ← PCM(e₅) ▷ تطبيق PCM عند عنق الزجاجة
24: تخطي الاتصالات: s_i ← DAM(e_i) ل i = 1، 2، 3، 4 ▷ ميزات مشفر المرشح
25: فك الترميز:
26: d₄ ← DoubleConv(Concat(Up(b)،_{s 4}))
27: d₃ ← DoubleConv(Concat(Up(d₄),_{s 3}))
28: النصر₂ ← المؤتمر المزدوج (كونكات (دور₃)، الثانوية₂))
29: d₁ ← DoubleConv(Concat(Up(d₂),_{s 1}))
30: M ← سيغمويد (Conv1 × 1(d₁))
31: العودة M
32: دالة النهاية
33:
34: التدريب:
35: لكل عصر قم ب
36: M̂ ← PWD-Net(I)
37: L ← 0.5 · BCE(M̂,_{M gt}) + 0.5 · DiceLoss(M̂, M_gt) ▷ λ = 0.5

38: تحديث المعلمات عبر الانتشار العكسي (Adam تحسينr)
39: نهاية ل

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

الإعداد التجريبي
مجموعة البيانات

تم استخدام مجموعة بيانات كفاسير SEG لتقييم سلوك تقسيم شبكة PWD على صور تنظير القولون ذات ظهور سلائل غير متجانسة. تحتوي مجموعة البيانات على صورة بوليب مشروحة بحجم 1000 بكسل، وتشمل تنوعا في حجم البوليب، وشكلها، وملمسها، وإضاءتها، وتعقيد الخلفية، مما يجعلها مناسبة لتقييم اكتشاف الأهداف الصغيرة، وتحديد موقع الحدود، ومتانة التداخل البصري. تم تقسيم مجموعة البيانات إلى مجموعات تدريب، والتحقق من الصحة، والاختبار، وتم استخدام مجموعة الاختبار النهائية فقط لتقييم الأداء. يتم تلخيص توزيع الصور في الجدول 1.

تفاصيل التنفيذ

تلخص إعدادات التنفيذ المطلوبة لقابلية إعادة الإنتاج في الجدول 2، ويتم توفير التفاصيل الإجرائية الكاملة في خطوات إعداد البيانات والقسم 5.2 من البروتوكول. لتفسير النتائج، استخدمت جميع التجارب المبلغ عنها نفس دقة الإدخال، وبيئة العتاد، وظروف التقييم المدرجة في جدول المواد. تعتمد القيم المبلغ عنها على نقطة التحقق المختارة من اختبار واحد باستخدام seed = 42، لذا يجب تفسير النتائج كأداء تحت تقسيم تجريبي ثابت بدلا من أن تكون نتائج تحقق متقاطعة متوسطة المتوسطة.

مقاييس التقييم

تم تقييم أداء التقسيم باستخدام معامل النرد، والتقاطع عبر الاتحاد، ودقة مستوى البكسل، وسرعة الاستدلال. تم استخدام معامل النرد والتقاطع فوق الاتحاد كمقاييس أساسية قائمة على التداخل لأنها تعكسان التوافق المباشر بين القناع المتوقع ومنطقة السلائل المشروحة من قبل الخبراء. تم الإبلاغ عن دقة مستوى البكسل كمقياس إضافي لأن صور تنظير القولون غالبا ما تحتوي على مناطق خلفية كبيرة. تم تضمين سرعة الاستدلال، التي تم الإبلاغ عنها كإطارات في الثانية، لتقييم ما إذا كان النموذج يحافظ على كفاءة حسابية عملية مع تحسين جودة التقسيم.

مقارنة مع الطرق الحالية
لإثبات سلوك وفعالية شبكة PWD-Net، يتم إجراء مقارنة مع خمس طرق تمثيلية لتقسيم السلائل: CBSA (شبكة الانتباه المكاني المعززة بالقناة) ³⁴، FSSA (شبكة الانتباه المكاني المشترك للميزات)، MSF (شبكة الاندماج متعددة المقاييس)، Pinwheel-Conv (خط الأساس التفاف الدواب بدون وحدات الانتباه أو الاندماج)، وPolaLinear (شبكة الانتباه الخطية المستقطبة). تعاد تنفيذ جميع طرق المقارنة باستخدام الرموز المصدرية الرسمية التي تم إصدارها وتدريبها على نفس مجموعة تدريب كفاسير-SEG (800 صورة) تحت نفس إعدادات المعالجة المسبقة، ودقة الإدخال (352 × 352)، وإعدادات التقييم لضمان مقارنة عادلة. يعرض الجدول 3 النتائج الكمية على مجموعة الاختبار.

كما هو موضح في الجدول 3، تحقق PWD-Net معامل نرد 0.865 وIoU 0.765، مما يمثل تحسنا بنسبة 1.8٪ في Dice و4.8٪ في IoU مقارنة بالطريقة التالية الأفضل (CBSA). ومن الجدير بالذكر أن PWD-Net يحقق ذلك ب 9.1 مليون معاملة، مقارنة ب 18.4 مليون لمعيار CBSA، مما يشير إلى كفاءة إيجابية. بينما تقدم PolaLinear وPinwheel-Conv سرعات استدلال أسرع (79 و72 إطار في الثانية على التوالي)، فإن دقة التقسيم بينهما أقل بشكل ملحوظ، مما يشير إلى أن PWD-Net يوفر توازنا معقولا بين الدقة والتكلفة الحسابية لمجموعة البيانات المقيمة. لتوضيح سلوك التقسيم النوعي، يتم اختيار خمس عينات اختبار تمثيلية تغطي السلائل الصغيرة، والسولات الكبيرة، والخلفيات المعقدة، والحدود الضبابية للمقارنة البصرية. يعرض الشكل 5 نتائج التقسيم لأربع طرق مقارنة مختارة (CBSA، FSSA، MSF، وPWD-Net) إلى جانب الحقيقة الأرضية. كل عمود توقع يحمل اسم الطريقة المقابل. تم حذف Pinwheel-Conv وPolaLinear من هذا الشكل لوضوح البصر، حيث أن أدائهما الكمي أقل بكثير؛ لذا يمثل هذا الشكل مجموعة مختارة من الطرق التي تمت مقارنتها في الجدول 3.

كما هو موضح في الشكل 5، في سيناريوهات السلائل الصغيرة (الصفوف الأولى والخامسة)، تظهر FSSA وMSF اكتشافات فاشلة، بينما تلتقط PWD-Net الأهداف بشكل أكثر اكتمالا. في سيناريوهات السلائل الكبيرة (الصفوف الثانية والثالثة)، تنتج CBSA وFSSA شذوذات حدودية ملحوظة، بينما يولد PWD-Net حدودا أكثر نعومة. في سيناريو الحدود الضبابية (الصف الرابع)، يظهر PWD-Net قمع فعال لضوضاء الخلفية عبر آلية الانتباه المزدوج.

دراسة الاستئصال
لتحليل مساهمة كل مكون أساسي في شبكة PWD، تجرى دراسة استئصال منهجية. باستخدام ResNet-50 كمشفر عمود فقري لتشكيل النموذج الأساسي، يتم دمج وحدة الالتفاف Pinwheel (Pinwheel Module)، وآلية الانتباه المزدوج (Dual-Attn)، ووحدة دمج الميزات متعددة المقاييس (MSF) تدريجيا. يلخص الجدول 4 النتائج الكمية.

يمكن تلخيص النتائج الرئيسية من الجدول 4 كما يلي. أولا، إضافة أي وحدة واحدة تحسن أداء نموذج القاعدة (Baseline). تحقق آلية الانتباه المزدوج أبرز المكاسب (النرد: +2.0٪، IoU: +2.7٪)، مما يدعم فعالية كبت الضوضاء التكيفي. تساهم وحدة الالتفاف الدوبابيس بتحسين بنسبة 1.6٪ في النرد، مما يشير إلى فائدة استخراج الميزات متعددة الاتجاهات لأشكال السلائل غير المنتظمة. ثانيا، الجمع بين الالتفاف الدوجي وآلية الانتباه المزدوج يزيد الأداء ليصبح النرد = 0.858 وIoU = 0.748، مما يشير إلى التكامل بين الوحدتين. وأخيرا، تحقق شبكة PWD الكاملة (التي تدمج جميع الوحدات الثلاث) أفضل أداء ملحوظ (نرد = 0.865، IoU = 0.765)، مع تحسينات بنسبة 3.3٪ و6.0٪ على التوالي مقارنة بالخط الأساسي، مما يدل على مساهمة كل مكون مقترح في هذه المجموعة.

تحليل عملية التدريب
لتوضيح ديناميكيات التدريب وخصائص التقارب في PWD-Net، يتم تسجيل وتصور مؤشرات الأداء الرئيسية على مدى 50 حقبة تدريب. يوضح الشكل 6 التغيرات في دالة الخسارة، ومعامل النرد، وIoU، والدقة أثناء التدريب.

كما هو موضح في الشكل 6(أ)، ينخفض فقدان التدريب وفقدان التحقق بسرعة خلال أول عشرة فترات ثم يستقر تدريجيا. يبقى فقدان التحقق أعلى قليلا من خسارة التدريب طوال الوقت، لكن المنحنين يتبعان اتجاها ثابتا مع فجوة صغيرة، مما يشير إلى أن النموذج لا يعاني من إفراط كبير في التوافق. يظهر الشكل 6(ب) أن معامل النرد يرتفع بشكل حاد في مرحلة التدريب المبكرة، ويتقارب بعد حوالي العصر الثلاثين، ويستقر فوق 0.86. يظهر منحنى IoU في الشكل 6(c) اتجاه نمو مشابه، حيث يصل إلى حوالي 0.765 في مرحلة التدريب المتأخرة. يشير الشكل 6(د) إلى أن الدقة تتقارب فوق 94٪. تشير اتجاهات التحقق المستقرة في مراحل التدريب الوسطى والمتأخرة إلى أن استراتيجية تعزيز البيانات المعتمدة وجدول التلدين الجيب يساهم في التخفيف من التوافق الزائد على هذه المجموعة.

الأداء عبر أحجام السليفة
لتقييم مدى تطبيق شبكة الأشخاص ذوي السلوك المحدود عبر السيناريوهات السريرية المختلفة، تم تقسيم مجموعة الاختبار (100 صورة) إلى ثلاث فئات حسب نسبة مساحة السلائل إلى إجمالي مساحة الصورة: سلائل صغيرة (< 5٪)، سلائل متوسطة (5٪–30٪)، وزوائد سلائل كبيرة (> 30٪). يعكس هذا التصنيف تأثير مقياس البوليب على صعوبة التقسيم. يعرض الجدول 5 الأداء الكمي في كل فئة. كما هو موضح في الجدول 5، يحقق PWD-Net أفضل أداء في فئة السليفة المتوسطة (نرد = 0.882، IoU = 0.790)، وهو ما يتوافق مع التمثيل الأكبر لهذه الفئة (54 من أصل 100 صورة اختبار). يبقى الأداء على السلائل الكبيرة عند مستوى مماثل (نرد = 0.861، IoU = 0.760). الأداء على السلائل الصغيرة أقل نسبيا (النرد = 0.812، IoU = 0.685)، ويرجع ذلك أساسا إلى أن الأهداف الصغيرة تحتل نسبة صغيرة من الصورة وتكون أكثر عرضة للضوضاء الخلفية مع معلومات حدود أقل انتشارا.

تشير هذه النتائج إلى أن قدرة التقاط الميزات متعددة الاتجاهات لوحدة الالتفاف الدوبيس وقدرة تحديد الموقع المكاني لآلية الانتباه المزدوج تساهم في الحفاظ على جودة تقسيم معقولة عبر مقاييس البوليب المختلفة في مجموعة الاختبار المقيمة.

figure-results-1
الشكل 1: إطار نموذج شبكة الأشخاص ذوي الإعاقة (PWD-Net). الإطار البنيوي العام لشبكة تقسيم السلائل المقترحة المبنية على الالتفاف الدوجي والانتباه المزدوج (PWD-Net)، الذي يوضح المشفر (ResNet-50)، عنق الزجاجة (PCM)، وصلات التخطي المحسنة ب DAM، فك ترميز MSF، وتوليد المخرجات لتقسيم السلائل القولونية والمستقيمية. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

figure-results-2
الشكل 2: مخطط انسيابي البنية العام ل PWD-Net. مخطط انسيابي مفصل لبنية PWD-Net الكاملة، يوضح مشفر ResNet-50 ذو الخمس مراحل، عنق زجاجة PCM، اتصالات تخطي RAM، فك ترميز دمج الميزات متعدد المقاييس، وتوليد التنبؤ النهائي. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

figure-results-3
الشكل 3: مخطط تخطيطي لوحدة الالتفاف الدوامة. مخطط هيكلي وتشغيلي لوحدة الالتفاف العجلة الدبابيسة، يوضح نوى الالتفاف متعددة الزوايا، والدوران القائم على الاستيفاء الثنائي الخطي، وربط القنوات، وتجميع الالتفاف 1 × 1. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

figure-results-4
الشكل 4: مخطط هيكل آلية الانتباه المزدوج. مخطط معماري ل DAM، يوضح فرع الانتباه على القناة المتوازية (التجميع المتوسط العالمي → MLP مع نسبة الاختزال r = 16 → السيجمويد) وفرع الانتباه المكاني (تجميع حسب القناة → الالتفاف 7 × 7 → السيجمويد)، يليه الاندماج الموزون مع معاملات قابلة للتعلم α و β. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

figure-results-5
الشكل 5: مقارنة نوعية لنتائج التقسيم. يمثل كل صف عينة اختبار. الأعمدة من اليسار إلى اليمين: صورة الإدخال، Ground Truth، CBSA، FSSA، MSF، وPWD-Net (لنا). تم حذف Pinwheel-Conv وPolaLinear من هذه اللوحة لتوضيح البصر؛ انظر الجدول 3 للمقارنة الكمية الكاملة. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

figure-results-6
الشكل 6: منحنيات التدريب لشبكة PWD-Net على مدى 50 حقبة. (أ) فقدان التدريب والتحقق. (ب) معامل النرد. (ج) تقاطع فوق الاتحاد (IoU). (د) دقة على مستوى البكسل. يرجى الضغط هنا لعرض نسخة أكبر من هذا الشكل.

مجموعة التدريب الفرعية	عدد العينات	النسبة
مجموعة القطار	800	80%
مجموعة التحقق	100	10%
مجموعة الاختبار	100	10%
المجموعة الكاملة	1000	100%

الجدول 1: إحصائيات مجموعات البيانات. توزيع تقسيم مجموعة البيانات لمجموعة بيانات كفاسير-SEG (إجمالي 1,000 صورة)، موضحا عدد الصور والنسبة المخصصة للمجموعات الفرعية للتدريب، والتحقق، والاختبار (البذرة العشوائية = 42).

الفئة	عنصر المعلمة	إعداد المعلمات
إطار التعلم العميق	الإطار	بايتورش
بيئة الأجهزة	وحدة معالجة الرسوميات	إنفيديا تسلا P100
طريقة التسارع	تسريع وحدة معالجة الرسوميات	كودا
إعدادات الإدخال	حجم الصورة المدخلة	352 × 352
تنسيق الصورة	تنسيق الصورة	صورة RGB
المحسن	المحسن	آدم
معدل التعلم الأولي	البداية LR	1 × 10⁻⁴
حجم الدفعة	حجم الدفعة	16
فترات التدريب	العصور	50
دالة الخسارة	دالة الخسارة	فقدان النرد + BCE

الجدول 2: إعدادات المعلمات التجريبية. إعدادات المعلمات التجريبية لتدريب وتقييم شبكة الأشخاص ذوي الاحتياجات الخاصة. يرجى الرجوع إلى خطوات إعداد البيانات والقسم 5.2 من البروتوكول للحصول على إجراء تنفيذ خطوة بخطوة كامل.

الطريقة	نرد ↑	IoU ↑	الدقة ↑	المعاملات (M) ↓	FPS ↑
CBSA	0.8466	0.717	0.9325	18.4	36
FSSA	0.7109	0.551	0.9012	9.8	61
MSF	0.7337	0.585	0.9086	11.5	54
بينويل-كونف	0.8007	0.6742	0.9401	7.9	72
بولالينير	0.7213	0.5707	0.9113	6.6	79
PWD-Net (لنا)	0.865	0.7651	0.9478	9.1	63

الجدول 3: نتائج المقارنة الكمية. مقارنة كمية بين PWD-Net مع خمس طرق تقسيم سلائل موجودة على مجموعة اختبار Kvasir-SEG (100 صورة). يتم تقييم جميع الطرق تحت تقسيمات بيانات متطابقة، والمعالجة المسبقة، ودقة الإدخال (352 × 352). ↑ تشير إلى الأعلى هو الأفضل؛ ↓ يشير إلى أن الأسفل أفضل. الطرق الموسومة ب * تشير إلى النتائج التي تم الاستشهاد بها من المنشور الأصلي بدلا من إعادة تنفيذها.

التكوين	الدواء	التفاعل المزدوج	MSF	نرد ↑	IoU ↑
خط الأساس	×	×	×	0.832	0.705
+ العجلة المربعة	√	×	×	0.848	0.725
+ Dual-Attn	×	√	×	0.852	0.732
+ منظمة أطباء بلا حدود	×	×	√	0.844	0.72
+ دويل + ذو نشاط مزدوج	√	√	×	0.858	0.748
كامل (شبكة الأشخاص ذوي الإعاقة)	√	√	√	0.865	0.765

الجدول 4: نتائج دراسة الاستئصال. نتائج دراسة الاستئصال على مجموعة اختبار Kvasir-SEG، التي تظهر المساهمة التدريجية لوحدة الالتفاف Pinwheel (Pinwheel)، وآلية الانتباه المزدوج (Dual-Attn)، ودمج الميزات متعددة المقاييس (MSF) في مشفرة ResNet-50 الأساسية.

نوع البوليب	الرقم	نرد ↑	IoU ↑
السلائل الصغيرة (< 5٪)	21	0.812	0.685
السلائل المتوسطة (5٪–30٪)	54	0.882	0.79
السلائل الكبيرة (> 30٪)	25	0.861	0.76

الجدول 5: أداء شبكة PWD على أنواع مختلفة من السلائل. أداء PWD-Net على فئات أحجام السلائل المختلفة ضمن مجموعة اختبار Kvasir-SEG (100 صورة). يتم تعريف حجم البوليب بنسبة مساحة البوليب إلى إجمالي مساحة الصورة.

ملف إضافي: أرشيف مضغوط يحتوي على تنفيذ إطار عمل PWD-Net. يتضمن الملف model.py تعريف بنية الشبكة باستخدام وحدة الالتفاف Pinwheel (PCM) وآلية الانتباه المزدوج (DAM)، train.py تنفيذ خط تحميل البيانات، دالة الفقد، وإجراءات التدريب، test.py لاستنتاج النماذج وتقييمها على مجموعات بيانات الاختبار، وسرد requirements.txt جميع مكتبات بايثون المطلوبة وإصداراتها المقابلة. يرجى الضغط هنا لتحميل هذا الملف.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

تعد عدة خيارات تصميمية في بروتوكول PWD-Net ضرورية لتحقيق نتائج تقسيم موثوقة وتستحق الانتباه الدقيق أثناء التنفيذ. أولا، يؤثر اختيار وتهيئة العمود الفقري للمشفر بشكل مباشر على سلوك التقارب والأداء النهائي. يستخدم البروتوكول مشفر ResNet-50 مدرب مسبقا على ImageNet، مما يوفر تهيئة ميزات قوية على المستوى المنخفض والمتوسط. وهذا مهم بشكل خاص لمهام تقسيم الصور الطبية حيث تكون بيانات التدريب المتاحة محدودة (800 صورة في هذه الدراسة). يسمح ضبط جميع طبقات المشفر، بدلا من تجميدها، للشبكة بتكييف الميزات المدربة مسبقا مع الخصائص الخاصة بصور تنظير القولون، مثل نسيج الغم المخاطي والانعكاسات المرآتية. ثانيا، وضع كل وحدة أساسية داخل البنية هو مقصود. يتم وضع وحدة الالتفاف الدواب (PCM) عند عنق الزجاجة، حيث تكون الدقة المكانية الأدنى ولكن المعلومات الدلالية هي الأغلق، مما يتيح التقاط الأنماط الهندسية العالمية بكفاءة دون تكلفة حسابية مفرطة. يتم تضمين آلية الانتباه المزدوج (DAM) في وصلات التخطي بدلا من جهاز فك الترميز، مما يضمن قمع الضوضاء الخلفية قبل نقل الميزات إلى جهاز فك الترميز، مما يمنع انتشار الميزات الملوثة عبر مراحل الاندماج. تدعم دراسة الاستئصال (الجدول 4) هذا التصميم: يساهم DAM بأكبر زيادة أداء فردية (Dice: +2.0٪)، مما يؤكد أهمية كبت الضوضاء المبكر في خط الميزات. ثالثا، دالة الخسارة الهجينة (0.5 · قبل الميلاد + 0.5 · Dice) يوازن بين دقة التصنيف على مستوى البكسل وتحسين التداخل على مستوى المنطقة. هذا المزيج مهم بشكل خاص لتقسيم السلائل، حيث يكون عدم توازن الطبقات في المقدمة والخلفية شائعا. يتم اعتماد الوزن المتساوي (λ = 0.5) كخيار افتراضي؛ قد يكون من الضروري تعديل هذه النسبة لمجموعات البيانات ذات توزيعات الفئات المختلفة (انظر استكشاف الأخطاء أدناه).

التعديلات وحل المشكلات
تم توفير التعديلات التالية وإرشادات استكشاف الأخطاء لتكييف البروتوكول مع إعدادات تجريبية مختلفة. عند تطبيق البروتوكول على مجموعات بيانات ذات دقة صور مختلفة أو توزيعات أحجام بوليب، قد يحتاج دقة الإدخال (352 × 352) إلى تعديل. قد تحسن أحجام المدخلات الأكبر اكتشاف السلائل الصغيرة على حساب زيادة استهلاك الذاكرة وتقليل سرعة الاستدلال. إذا لم يتقارب فقدان التدريب خلال 50 حقبة، فكر في تقليل معدل التعلم الأولي (مثلا إلى 5 × 10⁻⁵) أو زيادة طول دورة تلدين الجيب التمام. إذا أظهر النموذج معدلات إيجابية كاذبة عالية في المناطق التي تعاني من انعكاسات مرآتية شديدة أو طيات مخاطية، فإن زيادة وزن مكون فقدان النرد (مثلا، λ = 0.4 للقبل الميلاد، 0.6 للنرد) قد تحسن دقة الحدود على حساب الدقة على مستوى البكسل. وعلى العكس، إذا كان النموذج يقطع سلائل صغيرة، فقد يساعد زيادة وزن BCE. عدد زوايا الدوران في PCM (حاليا ثمانية، من 0° إلى 315° بزيادات 45°) يمثل توازنا بين التغطية الاتجاهية والتكلفة الحاسوبية. التقليل إلى أربع زوايا (0°، 90°، 180°، 270°) يقلل من الحساب لكنه قد يقلل من الحساسية لحدود البوليب المائلة. نسبة الاختزال r = 16 في فرع انتباه القناة في DAM تتبع الاتفاقية التي وضعتها شبكات الضغط والإثارة السابقة³²؛ النسب الأصغر (مثل r = 8) تزيد من سعة النموذج لكنها قد تؤدي إلى إفراط التركيب على مجموعات بيانات صغيرة. بالنسبة لمجموعات البيانات الأكبر بكثير من كفاسير-SEG، فكر في زيادة حجم الدفعة وفترات التدريب وفقا لذلك، وراقب مقاييس التحقق لتحديد نقطة التوقف المناسبة.

الأهمية بالنسبة للطرق البديلة
تعالج بنية شبكة PWD القيود المحددة للأساليب القائمة من خلال ثلاث وحدات تكميلية. مقارنة بالطرق التي تعتمد على النوى الالتفاوية المربعة القياسية، يوفر PCM حساسية اتجاهية من خلال النوايا المدورة متعددة الزوايا، مما يتيح تكيفا أفضل مع الشكل غير المنتظم والمتنوع لسلائل القولون والمستقيم. مقارنة بآليات الانتباه أحادية البعد (مثل الانتباه المحدود بالقناة في شبكات الضغط والإثارة³³)، يقوم DAM بنمذجة أهمية القناة والمكانية بشكل مشترك، مقدما قمع ضوضاء أكثر شمولا في بيئة تنظير القولون المعقد. مقارنة بمعماريات قائمة على المحولات مثل TransUNet³⁴ وPolyp-PVT³⁵، التي تقدم نمذجة عالمية قوية ولكن بتكلفة حسابية أعلى، تحقق PWD-Net أداء تنافسيا مع حجم نموذج صغير نسبيا (9.1 مليون معلمات) وسرعة استدلال عملية (63 إطار في الثانية)، كما هو موثق في الجدول 3.

يجدر بالذكر أن المقارنات المقدمة في هذه الدراسة (الجدول 3) تجرى تحت ظروف محكمة مع بروتوكولات مطابقة لتقسيم البيانات، والمعالجة المسبقة، والتقييم. الفروق في الأداء التي لوحظت خاصة بمجموعة اختبارات كفاسير-SEG (100 صورة) المستخدمة في هذه الدراسة وقد لا تعمم مباشرة على مجموعات بيانات أو بيئات سريرية أخرى. مقارنة أوسع تشمل خطوط أساس إضافية قائمة (مثل PraNet³⁶، ResUNet+⁺³⁷) تحت معايير موحدة متعددة مجموعات البيانات ستعزز الأدلة أكثر ومن المخطط لها العمل المستقبلي. أظهرت الأعمال الحديثة على هياكل الترميز-فك الترميز المزدوج لتقسيم السلائل³⁸ إمكانات مسارات الترميز وفك الترميز المتوازي. تختلف بنية PWD-Net بالتركيز على النمذجة الهندسية الدورانية والترشيح ذو الانتباه المزدوج ضمن خط أنابيب مشفر-فك تشفير واحد، مما يمثل فلسفة تصميم مكملة.

يجب الاعتراف بعدة قيود مهمة لهذه الدراسة. أولا، فيما يتعلق بنطاق التجربة، تقدم الدراسة الحالية نتائج حصرية على مجموعة بيانات كفاسير-SEG مع تقسيم عشوائي واحد ل800 تدريب، و100 تحقق، و100 صورة اختبار. حجم مجموعة الاختبار (100 صورة) صغير نسبيا، ويتم الإبلاغ عن تجربة تدريب واحدة فقط دون تكرار التجارب أو التحقق المتبادل. وبالتالي، قد تكون مقاييس الأداء المبلغ عنها عرضة للتباين المرتبط بتقسيم البيانات المحدد. يجب أن تتضمن الأعمال المستقبلية التحقق المتقاطع في k-fold أو تقسيمات عشوائية متعددة مع انحرافات معيارية مبلغ عنها لتوفير تقديرات أداء أكثر قوة. ثانيا، يقدم PCM عبئا حسابيا إضافيا من خلال دوران وتجميع نواة متعددة الزوايا. على الرغم من أن النموذج العام لا يزال مضغوطا (9.1 مليون معلمة)، إلا أن النشر على الأجهزة ذات الموارد المحدودة في البيئات السريرية قد يتطلب تحسينا إضافيا من خلال تقنيات مثل تقطير المعرفة أو تقليم النموذج. ثالثا، يتم تدريب النموذج وتقييمه حصريا على الصور الثابتة، بينما يتضمن تنظير القولون السريري تدفقات فيديو في الوقت الحقيقي يتغير فيها مظهر وحجم ورؤية السلائل ديناميكيا عبر الإطارات المتتالية. على الرغم من أن سرعة الاستدلال 63 إطارا في الثانية متوافقة مع معدلات الإطارات في الوقت الحقيقي، إلا أن هذا المقياس وحده لا يشكل تحققا سريريا. سيكون من الضروري التحقق المستقبلي على بيانات الفيديو المنظارية، ودراسات القراء، وتحليلات النقاط النهائية السريرية اللاحقة قبل تقديم أي ادعاءات بالجاهزية السريرية ^39,40,41. يجب فهم العمل الحالي كمساهمة منهجية بدلا من نظام معتمد سريريا.

رابعا، يمتد مسار الترجمة السريرية لتقسيم السلائل بمساعدة الذكاء الاصطناعي إلى ما هو أبعد من دقة التقسيم. أبرزت المراجعات الحديثة أن أدوات التصوير والتحليل المتقدمة يجب أن تدمج ضمن سير العمل الأوسع للولامين البطاني، بما في ذلك تصنيف الآفات، وتحديد المرحلة، وتخطيط العلاج. يركز البروتوكول الحالي حصريا على تقسيم السلائل الثنائية ولا يتناول تصنيف⁴² المرضي (مثل السلائل الغدية مقابل فرط التلدين) أو تقييم مخاطر الأورام الخبيثة، والتي تعد ضرورية لتوجيه القرارات السريرية. خامسا، مجموعات البيانات المستخدمة في هذه الدراسة مستمدة بشكل أساسي من فحوصات تنظير القولون للبالغين. لا توجد بيانات عن السلائل لدى الأطفال، والسولات المرتبطة بأمراض الأمعاء الالتهابية، وأنواع مرضية خاصة أخرى. لا تزال قابلية تعميم النموذج على هذه الفئات السكانية غير مختبرة. سادسا، بينما تقدم تجارب الاستئصال والتصورات النوعية لتوضيح وظيفة كل وحدة، تظل قابلية تفسير النموذج محدودة. عملية اتخاذ القرار في نماذج التعلم العميق ليست شفافة تماما، مما قد يؤثر على ثقة الأطباء وتبنيه. قد تتضمن الأعمال المستقبلية تقنيات التصور المعتمدة على التدرج لتقديم تفسيرات أكثر بديهية لتوقعات النموذج⁴³.

على الرغم من القيود المذكورة أعلاه، يوفر بروتوكول PWD-Net إطارا قابلا لإعادة الإنتاج لتقسيم السلائل قد يكون أساسا لمزيد من التطوير. تشمل الاتجاهات المحتملة: توسيع النموذج ليشمل تحليل تنظير القولون عبر الفيديو من خلال دمج تقنيات النمذجة الزمنية؛ إضافة فرع تصنيف للتقسيم من الطرف إلى الطرف والتصنيف المرضي؛ توسيع التقييم ليشمل مجموعات بيانات متعددة المراكز أكبر وأكثر تنوعا؛ واستكشاف التكامل داخل المنصات الروبوتية الداخلية الضوئية، حيث يتم الاعتراف بشكل متزايد بتحليل الصور بمساعدة الذكاء الاصطناعي كتقنية تمكين رئيسية ^44,45. حزمة الشيفرة التكميلية المرفقة مع هذا البروتوكول تهدف إلى تسهيل إعادة إنتاج وتكييف الطريقة من قبل مجموعات البحث الأخرى.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

المؤلفون ليس لديهم ما يكشفون عنه.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

تم تمويل هذه الدراسة من قبل برنامج البحث والتطوير الوطني للمفاتيح في الصين (أرقام البرنامج 2022YFC3500200 و2022YFC3500204).

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
آدم أوبسينسر	—	—	مدرج في بايتورش
الألبوميينتيشن	فريق ألبومنتيشينز	v1.0+	مكتبة تعزيز البيانات
مجموعة أدوات CUDA	NVIDIA	v11.3+	تسريع وحدة معالجة الرسومات
مجموعة بيانات Kvasir-SEG	سيمولاميت	—	https://datasets.simula.no/kvasir-seg/
ماتبلوتليب	مجتمع ماتبلوتليب	v3.4+	تصور منحنيات التدريب
نومباي	مجتمع نومبي	v1.21+	الحوسبة العددية
إنفيديا تسلا P100	NVIDIA	P100-PCIE-16GB	وحدة معالجة الرسوميات للتدريب والاستدلال
OpenCV	مجتمع OpenCV	v4.5+	معالجة الصور مسبقة
بايثون	مؤسسة بايثون للبرمجيات	v3.8+	لغة البرمجة
بايتورش	منصات ميتا	v1.12+	إطار التعلم العميق
أوزان ResNet-50 المدربة مسبقا	حديقة حيوانات نماذج بايتورش	—	ImageNet-1K مدرب مسبقا
أوبونتو	القانوني	18.04+	نظام التشغيل

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

شبكة تقسيم السلائل بناء على التواء الدواء والانتباه المزدوج لتشخيص آفات ما قبل سرطانية في القولون والمستقيم

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles