Réseau de segmentation des polypes basé sur la convolution en moulin et une double attention pour le diagnostic des lésions précancéreuses colorectales

Ning Du; Xinqi Liu; Li Ji; Chuijie Wang

doi:10.3791/71178

Method Article

Réseau de segmentation des polypes basé sur la convolution en moulin et une double attention pour le diagnostic des lésions précancéreuses colorectales

DOI:

10.3791/71178

⸱

June 26th, 2026

Ning Du*¹ , Xinqi Liu*¹ , Li Ji² , Chuijie Wang³

¹National Cancer Center/National Clinical Research Center for Cancer/Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, ²Xinglin College of Liaoning University of Traditional Chinese Medicine, ³Liaoning University of Traditional Chinese Medicine Affiliated Hospital

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ce protocole implémente un réseau d’apprentissage profond en forme de U intégrant convolution en moulin à vent, double attention et fusion multi-échelle pour segmenter les polypes colorectals.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Une segmentation précise des polypes colorectaux est cruciale pour la prévention précoce et le diagnostic du cancer colorectal. Cependant, en raison de la forte hétérogénéité des polypes en termes de forme, de taille et de texture, ainsi que de la complexité de l’environnement intestinal (tels que les plis, les réflexions spéculaires et les résidus fécals), les méthodes existantes rencontrent encore des défis importants dans la localisation des limites et la détection des petits polypes. Pour répondre à ces problèmes, cet article propose un réseau de segmentation des polypes basé sur la convolution en moulin à épingle et la double attention (PWD-Net). Le réseau proposé adopte une architecture encodeur-décodeur en U, où un ResNet pré-entraîné est employé comme encodeur pour extraire des fonctionnalités locales multi-niveaux. Plus précisément, un module de convolution Pinwheel (PCM) est introduit à la couche goulot d’étranglement pour capturer la structure géométrique globale et l’information contextuelle multidirectionnelle des polypes via des noyaux de convolution rotés à plusieurs angles. Un mécanisme à double attention (DAM) qui intègre l’attention du canal et l’attention spatiale est conçu pour supprimer de manière adaptative le bruit de fond et renforcer les caractéristiques de la région des polypes. De plus, une stratégie de fusion multi-échelle (MSF) est employée pour combiner des informations sémantiques profondes avec des détails de frontières peu profonds, garantissant à la fois l’exhaustivité et la précision des résultats de segmentation. Des expériences menées sur les ensembles de données Kvasir-SEG et CVC-ClinicDB démontrent que PWD-Net atteint des coefficients Dice moyens de 0,865 et 0,944, et des scores IoU de 0,765 et 0,892 respectivement, surpassant nettement les méthodes de pointe existantes. Les études d’ablation vérifient l’efficacité de chaque module, et les évaluations croisées confirment la forte capacité de généralisation du modèle. Cette étude propose une solution robuste et de haute précision pour la segmentation clinique des polypes, offrant une valeur significative pour le diagnostic précoce des lésions précancéreuses colorectales et soutenant l’intervention assistée par ordinateur.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Le cancer colorectal est l’une des tumeurs malignes les plus courantes dans le monde, avec des taux d’incidence et de mortalité constamment élevés. Des études ont montré que la plupart des cancers colorectaux se développent à partir de polypes adénomateux, un processus qui dure généralement 10 à 15 ans, offrant une fenêtre temporelle précieuse pour la détection précoce et l’intervention. Une augmentation de 1 % du taux de détection des adénomes (ADR) peut réduire le risque de cancer colorectal d’environ 3 %, diminuant significativement la mortalité des^{patients 1}. La coloscopie, considérée comme la référence en matière de dépistage du cancer colorectal, permet l’élimination directe des polypes lors de l’examen, réduisant ainsi efficacement l’incidence et la mortalité du cancer.

Cependant, la coloscopie conventionnelle dépend fortement de l’expérience et du niveau de compétence des endoscopistes. Des facteurs tels que le jugement subjectif, la fatigue visuelle et la distraction peuvent entraîner un taux d’échec de 20 % à 30 %, ce qui affecte directement l’efficacité du dépistage². Par conséquent, développer des systèmes de détection assistée par ordinateur (CAO) pour la segmentation automatique des polypes colorrectaux revêt une importance considérable pour améliorer la RAM et réduire les diagnostics manqués. Des enquêtes cliniques récentes ont également mis en lumière l’intérêt pour l’intégration de l’intelligence artificielle dans les flux de travail d’évaluation endoscopique des lésions, renforçant ainsi la nécessité de méthodes de segmentation robustes^{et reproductibles 3}.

Ces dernières années, l’apprentissage profond a réalisé des progrès remarquables dans l’analyse d’images médicales, en particulier les réseaux neuronaux convolutionnels (CNN), qui démontrent une forte capacité d’extraction et de représentation de caractéristiques pour les tâches de segmentation^{d’images 4}. En tant que modèle classique de segmentation d’image médicale, U-Net utilise une architecture encodeur-décodeur symétrique et des connexions à saut pour obtenir une segmentation précise au niveau des pixels, devenant une référence dans ce^{domaine 5}. S’appuyant sur U-Net, de nombreuses architectures améliorées ont été proposées pour répondre à des tâches complexes de segmentation d’images médicales. UNet++ réduit l’écart sémantique entre les cartes de caractéristiques de l’encodeur et du décodeur en introduisant des connexions de saut imbriquées et^{denses 6}. ResUNet++ intègre des blocs résiduels, des modules de compression et d’excitation, des convolutions dilatées et des mécanismes d’attention, atteignant de fortes performances en segmentation de^{polypes 7}. U^2-Net adopte une structure imbriquée en forme de U à deux niveaux pour capturer des informations de caractéristiques^{multi-échelle 8}. Plus récemment, un réseau de segmentation profonde de polypes basé sur un double encodeur-décodeur a été proposé, exploitant les chemins d’encodage et de décodage parallèles pour améliorer encore la précision de^{segmentation 9}.

Par contre, l’introduction de mécanismes d’attention apporte de nouvelles solutions pour l’amélioration des caractéristiques et la suppression du bruit. Attention U-Net utilise des portails d’attention pour se concentrer sur les régions cibles tout en supprimant les informations de fond non^{pertinentes 10}. Le Double Attention Network (DANet) pondère adaptativement les caractéristiques à partir des dimensions du canal et^{spatiales 11}, améliorant ainsi la perception des caractéristiques critiques. Les réseaux à triple attention (TANet) améliorent encore la performance de segmentation grâce à la sélection adaptative de fonctionnalités^{multi-échelle 12}.

Avec le succès des architectures Transformer dans le traitement du langage naturel et la vision par^{ordinateur 13}, les chercheurs ont commencé à explorer leur application dans la segmentation d’images médicales. TransUNet a été le premier à utiliser un Transformer comme encodeur pour modéliser efficacement les dépendances à longue^{portée 14}. Swin-UNet adopte une architecture purement Transformer et réalise une agrégation globale efficace de l’information grâce à un mécanisme à fenêtre^{décalée 15}. UTNet propose une architecture hybride qui combine la capacité d’extraction locale des caractéristiques des CNN avec la modélisation globale de Transformers¹⁶.

Dans le domaine de la segmentation des polypes, Polyp-PVT utilise un Transformer à vision pyramidale pour capturer l’information sémantique globale^{multi-échelle 17}, tandis que l’UNet imbriqué multi-échelle améliore la compréhension contextuelle en intégrant Transformers¹⁸. Des études récentes ont également exploré des stratégies d’apprentissage par corrélation négative pour la segmentation inter-domaine^{des polypes 19}, l’amélioration de la segmentation augmentée par^{Gompertz 20}, ainsi que des architectures basées sur l’attention incorporant un guidage de frontière²¹. Bien que ces approches améliorent dans une certaine mesure la performance de la segmentation, la segmentation des polypes rencontre encore plusieurs défis. Premièrement, les polypes présentent une forte hétérogénéité morphologie, taille et texture, allant de micro-polypes de plus de 5 mm à de gros polypes dépassant 30 mm, avec des formes allant de circulaires et elliptiques à des formes très irrégulières. Deuxièmement, l’environnement intestinal est complexe et variable, où les plis muqueuss, les réflexions spéculaires, les résidus fécaux et les débris alimentaires introduisent une interférence de fond sévère. Troisièmement, de nombreux polypes présentent des frontières floues, peuvent être partiellement obstrués par des plis ou submergés dans des liquides intestinaux, rendant la localisation précise des limites extrêmement^{difficile 22}.

Les méthodes existantes présentent encore des limites claires pour relever ces défis. Les CNN traditionnels sont efficaces pour extraire les textures locales et les contours ; cependant, les noyaux de convolution carrés fixes ne sont pas bien adaptés à la capture de formes géométriques diverses²³, en particulier pour les polypes très irréguliers, et ne peuvent pas modéliser efficacement des caractéristiques géométriques multidirectionnelles. Les méthodes basées sur des transformateurs peuvent modéliser les dépendances globales mais sont moins efficaces pour capturer des détails locaux fins et des informations de frontière. De plus, leur grande complexité de calcul les rend moins adaptés aux applications cliniques en temps^{réel 24}. Les approches récentes de segmentation des polypes telles que PraNet, qui utilise des modules d’attention inversée pour affiner les régions^{clés 25}, les réseaux d’attention en cascade guidés par les frontières qui améliorent l’extraction des caractéristiques^{des limites 26}, et CAFE-Net, qui fusionne les caractéristiques encodeur et décodeur via des mécanismes d’attention^{croisée 27}, rencontrent encore une représentation des caractéristiques insuffisante et une localisation des limites imprécise lors de la gestion de petits^{polypes 28}, des frontières floues et des arrière-plans complexes. De plus, la plupart des méthodes négligent la morphologie géométrique et ne parviennent pas à exploiter pleinement les informations contextuelles multidirectionnelles, ce qui entraîne une segmentation sous-optimale des polypes de forme irrégulière.

En résumé, les méthodes actuelles basées sur CNN ne permettent pas de capturer des caractéristiques géométriques multidirectionnelles en raison de leur dépendance aux noyaux de convolution carrés fixes. Les approches basées sur les transformateurs offrent une modélisation globale mais sacrifient la précision des frontières locales et imposent des coûts de calcul élevés. Par ailleurs, les stratégies existantes de fusion à attention améliorée et à plusieurs échelles n’ont pas été optimisées conjointement dans un cadre unifié spécifiquement adapté à la segmentation^{des polypes 29}. Ces lacunes motivent le développement d’une méthode qui aborde simultanément la modélisation géométrique des caractéristiques, la suppression adaptative du bruit et l’intégration des caractéristiques à l’échelle croisée.

Pour résoudre ces problèmes, ce protocole présente un réseau de segmentation de polypes basé sur la convolution en moulin à éponge et la double attention (PWD-Net). Le réseau proposé intègre la modélisation géométrique des caractéristiques, l’amélioration de l’attention multidimensionnelle et la fusion de caractéristiques à plusieurs échelles, permettant une segmentation précise des polypes complexes. Les principales contributions de ce travail sont résumées ainsi : le module de convolution en moulin à pile (PCM), inspiré de la structure d’un moulin à vent, propose un nouveau noyau de convolution tourné qui capture les caractéristiques géométriques multidirectionnelles des polypes par des opérations de convolution à plusieurs angles (0°, 45°, 90°, 135°, 180°, 225°, 270° et 315°). Ce module remplace la couche de convolution conventionnelle à l’étape du goulot d’étranglement, permettant une perception efficace des orientations diverses des arêtes et améliorant significativement la représentation des polypes de forme irrégulière. Le mécanisme de double attention (DAM) traite les bruits de fond tels que les plis, les réflexions et les résidus fécaux dans les images de coloscopie. Un module à double attention intégrant l’attention canalisée et l’attention spatiale est conçu. Intégré dans les connexions à saut, ce module supprime de manière adaptative les interférences de fond et améliore les réponses des caractéristiques dans les régions polypes en identifiant conjointement « ce qui » est important (dimension du canal) et « où » la cible se trouve (dimension spatiale), garantissant que seules les caractéristiques affinées sont impliquées dans la fusion ultérieure. La stratégie de fusion de caractéristiques multi-échelles (MSF) préserve à la fois des informations sémantiques profondes et des détails superficiels des frontières grâce à un mécanisme hiérarchique introduit dans le décodeur. En intégrant progressivement les caractéristiques de l’encodeur amélioré par DAM avec des caractéristiques de décodeur suréchantillonné, cette stratégie compense efficacement la perte de détails spatiale causée par le downsampling, permettant une détection précise de petits polypes et une délimitation précise des frontières.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cette étude utilise uniquement des ensembles de données d’images anonymisées et anonymisées publiques (Kvasir-SEG). Aucune nouvelle donnée sur les sujets humains n’a été collectée. L’approbation éthique institutionnelle et le consentement éclairé des patients n’étaient pas requis, comme le confirment les politiques d’examen institutionnel pour les analyses rétrospectives de jeux de données publics désidentifiés.

1. Préparation des données

Téléchargez le jeu de données Kvasir-SEG depuis le dépôt officiel33 (https://datasets.simula.no/kvasir-seg/). Le jeu de données contient 1 000 images de polypes avec des masques de vérité au niveau des pixels correspondants.
Divisez aléatoirement le jeu de données en ensembles d’entraînement (800 images), de validation (100 images) et de test (100 images) avec un ratio de 8:1:1 en utilisant une graine aléatoire fixe (graine = 42). Vérifiez qu’aucune image ne se chevauche entre les trois sous-ensembles afin d’éviter toute fuite de données.
Redimensionner toutes les images et masques correspondants à 352 x 352 pixels en utilisant l’interpolation bilinéaire pour les images et l’interpolation du voisin le plus proche pour les masques.
Normaliser les valeurs des pixels à [0, 1] en divisant par 255, puis appliquer la soustraction moyenne par canal par canal (0,485, 0,456, 0,406) et la normalisation par écart-type (0,229, 0,224, 0,225).
Appliquez les transformations d’augmentation suivantes uniquement à l’ensemble d’entraînement (pas aux ensembles de validation ou de test) : retournement horizontal aléatoire (probabilité = 0,5) ; retournement vertical aléatoire (probabilité = 0,5) ; rotation aléatoire (plage : −30° à +30°, probabilité = 0,5) ; Redimensionnement aléatoire multi-échelle (facteur d’échelle : 0,75 à 1,25, probabilité = 0,5)
REMARQUE : Appliquer des transformations spatiales identiques à l’image et à son masque correspondant afin de maintenir l’alignement. Vérifiez la correction des augmentations en inspectant visuellement plusieurs paires image-masque augmentées avant d’initier l’entraînement.

2. Architecture générale

REMARQUE : Voir la Figure 1 pour la colonne vertébrale encodeur-décodeur au niveau macro de PWD-Net, et la Figure 2 pour l’intégration et l’interaction des modules de base dans le flux de fonctionnalités. L’architecture globale suit un design encodeur-décodeur en forme de U pour gérer les variations d’échelle des polypes et les interférences de fond dans les images de coloscopie.

Réseau dorsale et chemin d’encodage (Figure 1)
1. Utilisez un ResNet-50 pré-entraîné sur ImageNet (provenant du zoo officiel PyTorch) comme encodeur dorsale 30. Ajustez toutes les couches d’encodeurs pendant l’entraînement.
2. Faites passer l’image de coloscopie d’entrée (redimensionnée à 352 x 352 pixels) à travers cinq étapes de blocs convolutionnels résiduels pour extraire des caractéristiques hiérarchiques. La résolution spatiale des cartes de caractéristiques est progressivement réduite de vers les cinq étapes, tandis que les dimensions du canal augmentent en conséquence (64 → 128 → 256 → 512 → 1024).
3. Au goulot d’étranglement (la couche d’encodeur la plus profonde), remplacer la couche convolutionnelle standard par le Module de Convolution Pinwheel (PCM, décrit dans la Section 3) afin de capturer la morphologie géométrique globale et les informations contextuelles multidirectionnelles à faible résolution.
  REMARQUE : Les cinq étapes de l’encodeur correspondent aux groupes de couches standard de ResNet-50 : conv1, couche 1, couche 2, couche 3 et couche 4. Les poids préentraînés offrent une initialisation robuste des caractéristiques de bas et moyen niveau, réduisant ainsi le temps de convergence sur de petits ensembles de données médicales.
Composants clés et interaction des caractéristiques (Figure 2 et Figure 3)
1. Appliquez le mécanisme de double attention (DAM, décrit dans la section 4) à la sortie de chaque étage de l’encodeur avant de le transmettre au décodeur via des connexions à saut. Cette étape supprime de manière adaptative le bruit de fond généré par les plis intestinaux et les réflexions spéculaires, tout en augmentant la réponse des caractéristiques dans les régions polypiques. Seules les caractéristiques filtrées sont transmises à la couche décodeuse correspondante.
2. Dans le décodeur, restaurez progressivement la résolution spatiale par un échantillonnage bilinéaire. À chaque couche de décodeur, concaténer les caractéristiques suréchantillonnées de l’étape précédente avec les caractéristiques de l’encodeur amélioré DAM de la même résolution spatiale.
3. Appliquez deux couches convolutionnelles convolutionnelles consécutives (chacune suivie d’une normalisation par lots et d’une activation ReLU) pour fusionner l’information multi-échelle. Cela constitue la stratégie Multi-scale Feature Fusion (MSF) décrite à la Section 5.
  REMARQUE : Le décodeur passe des couches profondes aux couches peu profondes (étape 5 → étape 1), garantissant que les informations de localisation sémantique profonde et les informations de détail des limites superficielles sont efficacement intégrées à chaque niveau.
Génération de production
1. Appliquez une couche convolutionnelle suivie d’une fonction d’activation sigmoïde à la sortie finale du décodeur pour générer le masque de prédiction.
2. Binariser le masque de prédiction en utilisant un seuil de 0,5 pour obtenir le résultat final de segmentation, où les pixels avec une probabilité prédite ≥ 0,5 sont classés comme polypes et les pixels restants en arrière-plan.

3. Module de convolution des moulins à piquet (Figure 3)

Le Module de Convolution à Moulin (PCM) remplace la convolution standard du goulot d’étranglement pour capturer les caractéristiques géométriques multidirectionnelles des polypes. Mettez en œuvre ce module comme suit :
1. Définissons un noyau de convolution de base W de taille 3 x 3 avec C_dans les canaux d’entrée et C dans les canaux_{de sortie} .
2. Définissons l’ensemble des angles de rotation Θ = {0°, 45°, 90°, ..., 315°}. Pour chaque angle θ ∈ Θ, générez le noyau rotationnel_{W θ} en appliquant une rotation basée sur l’interpolation bilinéaire à W. Les huit noyaux tournés partagent les mêmes paramètres de base ; seule la disposition spatiale des poids diffère.
3. Pour chaque angle θ, calculer la carte de caractéristiques spécifique à la direction :
  
  où X est la carte des caractéristiques d’entrée.
4. Agréger les huit attributs directionnels par concaténation canal par canal le long de l’axe du canal, produisant un tenseur de dimension (8 x C_{en sortie}) x H x W. Ensuite, appliquez une convolution 1 x 1 pour réduire la dimension du canal à C_out, suivie d’une normalisation batch et de l’activation^{ReLU 31} :
  
  REMARQUE : La rotation et l’interpolation sont effectuées sur les poids du noyau, et non sur la carte de caractéristiques d’entrée. Cette conception permet une extraction multidirectionnelle efficace en termes de paramètres sans augmenter la résolution d’entrée. Dans l’implémentation actuelle, C_in = 1024 et C_out = 1024 au stade du goulot d’étranglement, correspondant à la dimension du canal de sortie de la couche ResNet-50 4. Consultez le paquet de code complémentaire pour l’implémentation complète.

4. Mécanisme de double attention (Figure 4)

REMARQUE : Le mécanisme de double attention (DAM) est intégré à chaque connexion de saut pour supprimer le bruit de fond et renforcer les caractéristiques de la région polyp, tant dans les dimensions du canal que spatiales.

Attention sur la chaîne
La branche attention des canaux identifie quels canaux de fonctionnalités sont les plus informatifs. Avec une fonction d’entrée F ∈ R^C×H×W :
1. Compressez les dimensions spatiales via un regroupement global de la moyenne pour obtenir un descripteur de canal z ∈ R^C×1×1.
2. Passer z à travers une MLP (couches entièrement connectées) à deux couches avec un rapport de réduction r = 16. La première couche réduit la dimension de C à C/16 avec l’activation ReLU ; la seconde couche le ramène de C/16 à C grâce à une activation sigmoïde pour produire le vecteur de poids du canal_{A c} :
  
  où δ désigne ReLU et σ désigne Sigmoïde.
Attention spatiale
La branche de l’attention spatiale localise les régions cibles :
1. Appliquez à la fois le pooling max et le pooling moyen le long de la dimension du canal pour générer deux cartes de caractéristiques 2D de taille 1 x H x W.
2. Concaténine les deux applications le long de l’axe du canal pour former un tenseur 2 x H x W. Appliquez une couche convolutionnelle de 7 x 7 suivie d’une activation sigmoïde pour produire la carte de poids spatiale A_s ∈ R^1×H×W :
Fusion des caractéristiques
1. Fusionner les sorties du canal et de l’attention spatiale avec la fonction d’entrée par multiplication élément par élément :
  
  où α et β sont des coefficients d’équilibrage apprisables, tous deux initialisés à 0,5 et mis à jour conjointement avec les paramètres réseau via une optimisation basée sur le gradient pendant l’entraînement.
  REMARQUE : Référez-vous au paquet de code supplémentaire (dam_module.py) pour l’implémentation complète.

5. Fusion multi-échelle des caractéristiques

Appliquer la stratégie de fusion multi-échelle des caractéristiques (MSF) dans le décodeur pour traiter la perte de détails spatiale dans les caractéristiques profondes. À chaque étape du décodeur, effectuez ce qui suit :
Upéchantillonnez la carte de caractéristiques de l’étape précédente du décodeur par un facteur de 2 en utilisant une interpolation bilinéaire.
Concaténer les caractéristiques suréchantillonnées avec les caractéristiques de l’encodeur amélioré DAM de la résolution spatiale correspondante le long de l’axe du canal.
Appliquez deux couches convolutionnelles convolutionnelles consécutives de 3 x 3 (chacune suivie d’une normalisation par lots et d’une activation^{ReLU 32}) pour fusionner les caractéristiques concaténées.
REMARQUE : Cette fusion inter-niveaux garantit que les détails de la frontière des polypes (fournis par les caractéristiques peu profondes de l’encodeur) et la localisation sémantique (fournie par les caractéristiques profondes) sont simultanément préservés, générant des résultats de segmentation fines.

6. Fonction de perte et configuration d’entraînement

Fonction de perte
1. Une fonction de perte hybride L_total est adoptée pour optimiser conjointement le réseau, en corrigeant le déséquilibre omniprésent entre le premier plan et la classe arrière-plan dans la segmentation des polypes.
  La perte binaire d’entropie croisée (L_BCE) mesure la précision de classification au niveau des pixels :
  
  où N est le nombre total de pixels,_{y i} ∈ {0,1} est l’étiquette de la vérité fondamentale, et ŷ_i ∈ [0,1] est la probabilité prédite.
2. La perte de dés (L_Dice) quantifie la similarité d’ensemble entre les régions prédite et la région de la vérité de terrain :
  
  où ε est un facteur de lissage (réglé à 1 x 10⁻⁵) pour éviter la division par zéro.
  Fixer λ = 0,5 pour équilibrer les contributions des deux termes de perte.
Configuration d’entraînement
1. Initialisez l’encodeur avec des poids ResNet-50 pré-entraînés par ImageNet. Initialiser toutes les couches décodeur, PCM et paramètres DAM en utilisant une initialisation uniforme de Kaiming.
2. Configurez l’optimiseur et le planning d’entraînement comme suit. Utilisez l’optimiseur Adam avec β₁ = 0,9 et β₂ = 0,999. Fixez le taux d’apprentissage initial à 1 x 10⁻⁴. Appliquer un schéma de taux d’apprentissage par recuit cosinus avec T_max = 50 et η_min = 1 x 10⁻⁶. Utilisez une taille de 16 lots et entraînez le modèle pour 50 époques.
3. Entraînez le modèle pendant 50 époques sur l’ensemble d’entraînement (800 images). À la fin de chaque époque, évaluez le modèle sur l’ensemble de validation (100 images) en utilisant le coefficient de Dice comme métrique principale de surveillance.
4. Sauvegardez le point de contrôle du modèle qui atteint le coefficient de dé le plus élevé sur l’ensemble de validation. Utilisez ce point de contrôle comme modèle final pour toutes les évaluations ultérieures sur l’ensemble de test.
  REMARQUE : L’arrêt précoce n’est pas explicitement appliqué. La stratégie de sélection des meilleurs points de contrôle de dés sert de critère de sélection du modèle. Toutes les expériences sont menées à l’aide de l’environnement matériel et logiciel spécifié dans le tableau des matériaux. L’entraînement à 50 époques sur 800 images prend environ 2 heures sous la configuration décrite. Tous les résultats rapportés sont obtenus à partir d’une seule séance d’entraînement utilisant la graine aléatoire spécifiée (seed = 42). Référez-vous au package de code supplémentaire pour le script d’entraînement complet.

7. Pseudocode

Utilisez l’algorithme 1 comme carte complète du workflow pour PWD Net. Associez les blocs PCM, DAM, architecture principale et pipeline d’entraînement dans l’algorithme avec les fichiers correspondants du package de code supplémentaire.
Implémentez le bloc PCM montré aux lignes 4 à 12. Définissez un noyau de convolution en base 3 x 3 et générez huit noyaux rotationnés à 0°, 45°, 90°, 135°, 180°, 225°, 270° et 315° en utilisant une interpolation bilinéaire.
Gardez les mêmes paramètres de base apprenables pour tous les noyaux PCM tournés. Pour chaque angle de rotation, calculez une carte de caractéristiques spécifique à une direction.
Concaténez les huit cartes de caractéristiques PCM le long de la dimension du canal. Appliquez une convolution 1 x 1, une normalisation batch et une activation ReLU pour restaurer la dimension du canal d’origine.
Implémentez le bloc DAM montré aux lignes 14 à 19. Appliquez le Global Average Pooling pour générer le descripteur de canal, puis passez-le à travers un MLP à deux couches avec un ratio de réduction de 16 pour obtenir les poids des canaux.
Générez la carte d’attention spatiale en appliquant le pooling moyen canal par canal et le pool max à la fonction d’entrée. Concatéter les deux applications et les traiter avec une convolution 7 x 7 suivie d’une activation sigmoïde.
Fusionner le canal DAM et les sorties d’attention spatiale avec la fonction d’entrée en utilisant la multiplication élément par élément. Pondérez les deux applications d’attention avec les coefficients apprenables α et β, toutes deux initialisées à 0,5.
Construisez l’architecture principale PWD Net montrée dans les lignes 21 à 32. Faites passer l’image d’entrée à travers cinq étapes d’un encodeur ResNet 50 préentraîné pour obtenir de e1 à e5, avec une résolution spatiale décroissante de H x W à H/32 x W/32.
Appliquez du PCM sur e5 au niveau du goulot d’étranglement. Appliquez DAM à e1 à e4 avant d’envoyer ces fonctionnalités au décodeur via des connexions de saut.
Décodez la carte de caractéristiques des couches profondes à peu profondes. À chaque niveau de décodeur, suréchantillonnez la caractéristique précédente, concatènatez-la avec la fonction ENCODER améliorée DAM correspondante, et appliquez DoubleConv pour la fusion des caractéristiques.
Générez la sortie de segmentation avec une convolution 1 x 1 suivie d’une activation sigmoïde. Utilisez la carte de probabilité pixel par pixel résultante comme masque prédit.
Mettez en œuvre la boucle d’entraînement indiquée aux lignes 34 à 39. À chaque époque, exécutez la propagation vers l’avant via PWD Net et calculez le masque prédit.
Calculez la perte d’entraînement comme 0,5 x perte BCE plus 0,5 x perte de dés. Mettez à jour tous les paramètres apprenables avec l’optimiseur Adam par rétropropagation.

Algorithme 1 : Segmentation des polypes PWD-Net
1 : Entrée : Image de coloscopie I ∈ R^H×W×3
2 : Sortie : Masque de segmentation M ∈ {0,1}^(H×W)
3:
4 : fonction Module de convolution PCM(X) ▷ Moulin à vent
5 : Définissons le noyau de base W (3 x 3), angles Θ = {0°, 45°, ..., 315°}
6 : pour chaque θ ∈ Θ faire
7 : W_θ ← BilinearRotate(W, θ) ▷ Rotate kernel
8 : Y_θ ← Conv2d(X, W_θ) ▷ Caractéristiques spécifiques à la direction
9 : fin pour
10 : Y_out ← ReLU(BN(Conv1 x 1(Concat({Y_θ})))) ▷ Aggregate
11 : retour de Y_dehors
12 : fin de fonction
13:
14 : fonction DAM(F) ▷ Mécanisme à double attention
15 : A_c ← Sigmoid(MLP(AvgPool(F))) ▷ Attention de canal (r=16)
16 : A_s ← Sigmoid (Conv7 x 7([AvgPool(F) ; MaxPool(F)])) ▷ Attention spatiale
17 : F' ← F ⊗ (α · A_c + β · A_s) ▷ Fusionner avec α apprenable, β (init=0,5)
18 : retour F'
19 : fonction finale
20:
21 : fonction PWD-Net(I)
22 : Encodeur : e₁,_{e 2},_{e 3},_{e 4},_{e 5} ← ResNet50_Stages(I) ▷ Encodeur préentraîné à 5 étapes
23 : Goulot d’étranglement : b ← PCM(e₅) ▷ Appliquer PCM au goulot d’étranglement
24 : Ignorer les connexions : s_i ← DAM(_{e i}) pour i = 1, 2, 3, 4 ▷ Fonctionnalités de l’encodeur du filtre
25 : Décodeur :
26 : _{d 4} ← DoubleConv(Concat(Up(b), s₄))
27 : _{d 3} ← DoubleConv(Concat(Up(d₄), s₃))
28 : _{d 2} ← DoubleConv(Concat(Up(d₃), s₂))
29 : _{d 1} ← DoubleConv(Concat(Up(_{d 2}), s₁))
30 : M ← Sigmoïde (Conv1 x 1(d₁))
31 : retour M
32 : fonction finale
33:
34 : Entraînement :
35 : pour chaque époque, faire
36 : M̂ ← PWD-Net(I)
37 : L ← 0,5 · av. J.-C. (M̂,_{M gt}) + 0,5 · DésPerte (M̂,_{M gt}) ▷ λ = 0,5

38 : Mettre à jour les paramètres via rétropropagation (Adamoptimiser r)
39 : fin pour

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Installation expérimentale
Jeu de données

Le jeu de données Kvasir SEG a été utilisé pour évaluer le comportement de segmentation de PWD Net sur des images de coloscopie présentant des apparences de polypes hétérogènes. Le jeu de données contient des images annotées de 1 000 pixels de polypes et comprend des variations de taille, de forme, de texture, d’illumination et de complexité de fond des polypes, ce qui le rend adapté à l’évaluation de la détection de petites cibles, de la localisation des limites et de la robustesse face aux interférences visuelles. Le jeu de données était divisé en sous-ensembles d’entraînement, de validation et de test, et l’ensemble final de test n’était utilisé que pour l’évaluation des performances. La répartition des images est résumée dans le tableau 1.

Détails de l’implémentation

Les paramètres d’implémentation nécessaires à la reproductibilité sont résumés dans le Tableau 2, et les détails procéduraux complets sont fournis dans les étapes de Préparation des données et la section 5.2 du protocole. Pour interpréter les résultats, toutes les expériences rapportées utilisaient la même résolution d’entrée, le même environnement matériel et les mêmes conditions d’évaluation listés dans le tableau des matériaux. Les valeurs rapportées sont basées sur le point de contrôle de dés de validation sélectionné à partir d’une seule exécution utilisant seed = 42, donc les résultats doivent être interprétés comme des performances sous une répartition expérimentale fixe plutôt que comme des résultats de validation croisée moyennés.

Indicateurs d’évaluation

La performance de segmentation a été évaluée en utilisant le coefficient de Dice, l’intersection sur l’union, la précision au niveau des pixels et la vitesse d’inférence. Le coefficient de dés et l’intersection sur l’union ont été utilisés comme principales métriques basées sur le chevauchement car elles reflètent directement l’accord entre le masque prédit et la région de polypes annotée par des experts. La précision au niveau des pixels a été rapportée comme mesure complémentaire car les images de coloscopie contiennent souvent de grandes régions de fond. La vitesse d’inférence, rapportée en images par seconde, a été incluse pour évaluer si le modèle maintient une efficacité computationnelle pratique tout en améliorant la qualité de segmentation.

Comparaison avec les méthodes existantes
Pour démontrer le comportement et l’efficacité de PWD-Net, une comparaison est réalisée avec cinq méthodes représentatives de segmentation des polypes : CBSA (Channel-Boosted Spatial Attention ^Network)34, FSSA (Feature-Shared Spatial Attention Network), MSF (Multi-Scale Fusion Network), Pinwheel-Conv (base de convolution Pinwheel sans module d’attention ni de fusion) et PolaLinear (réseau d’attention linéaire polarisé). Toutes les méthodes de comparaison sont réimplémentées en utilisant leurs codes sources officiellement publiés et entraînées sur le même ensemble d’entraînement Kvasir-SEG (800 images) sous le même prétraitement, résolution d’entrée (352 x 352) et paramètres d’évaluation identiques afin d’assurer une comparaison équitable. Le tableau 3 présente les résultats quantitatifs sur l’ensemble de test.

Comme le montre le tableau 3, PWD-Net atteint un coefficient de dés de 0,865 et un IoU de 0,765, ce qui représente des améliorations de 1,8 % dans Dice et de 4,8 % en IoU par rapport à la méthode suivante (CBSA). Notamment, PWD-Net atteint cela avec des paramètres de 9,1 M, contre 18,4 millions pour le CBSA, indiquant une efficacité favorable. Bien que PolaLinear et Pinwheel-Conv offrent des vitesses d’inférence plus rapides (79 et 72 FPS, respectivement), leur précision de segmentation est nettement inférieure, ce qui suggère que PWD-Net offre un équilibre raisonnable entre précision et coût computationnel pour l’ensemble de données évalué. Pour illustrer le comportement qualitatif de segmentation, cinq échantillons de test représentatifs couvrant de petits polypes, de grands polypes, des arrière-plans complexes et des frontières floues sont sélectionnés pour une comparaison visuelle. La figure 5 présente les résultats de segmentation de quatre méthodes de comparaison sélectionnées (CBSA, FSSA, MSF et PWD-Net) aux côtés de la vérité sur le terrain. Chaque colonne de prédiction est étiquetée avec le nom de la méthode correspondante. Pinwheel-Conv et PolaLinear sont omis de cette figure pour des raisons de clarté visuelle, car leurs performances quantitatives sont nettement inférieures ; cette figure représente donc un sous-ensemble sélectionné des méthodes comparées dans le tableau 3.

Comme montré à la Figure 5, dans les scénarios de petits polypes (première et cinquième rangées), FSSA et MSF présentent des détections manquées, tandis que PWD-Net capture les cibles de manière plus complète. Dans les scénarios de gros polypes (deuxième et troisième rangée), la CBSA et la FSSA produisent des irrégularités de frontière notables, tandis que PWD-Net génère des frontières plus lisses. Dans le scénario à frontière floue (quatrième rangée), PWD-Net démontre une suppression efficace du bruit de fond via le mécanisme de double attention.

Étude d’ablation
Pour analyser la contribution de chaque composant central de PWD-Net, une étude d’ablation systématique est réalisée. En utilisant ResNet-50 comme encodeur dorsale pour former le modèle de base, le module de convolution Pinwheel (Pinwheel), le mécanisme de double attention (Dual-Attn) et le module Multi-Scale Feature Fusion (MSF) sont intégrés progressivement. Le tableau 4 résume les résultats quantitatifs.

Les principaux résultats du tableau 4 peuvent être résumés comme suit. Premièrement, l’ajout d’un module unique améliore les performances du modèle de base. Le mécanisme de double attention apporte les gains les plus notables (Dés : +2,0 %, IoU : +2,7 %), soutenant l’efficacité de la suppression adaptative du bruit. Le module de convolution Pinwheel apporte une amélioration de 1,6 % de Dice, ce qui indique l’avantage de l’extraction multidirectionnelle des caractéristiques pour les formes irrégulières de polypes. Deuxièmement, la combinaison de la convolution Pinwheel et du mécanisme de double attention augmente encore les performances à Dice = 0,858 et IoU = 0,748, suggérant une complémentarité entre les deux modules. Enfin, le PWD-Net complet (intégrant les trois modules) obtient la meilleure performance observée (Dice = 0,865, IoU = 0,765), avec des améliorations de 3,3 % et 6,0 % respectivement, par rapport à la base, démontrant la contribution de chaque composant proposé à cet ensemble de données.

Analyse du processus de formation
Pour illustrer la dynamique d’entraînement et les caractéristiques de convergence de PWD-Net, des indicateurs clés de performance sont enregistrés et visualisés sur 50 périodes d’entraînement. La figure 6 montre les variations de la fonction de perte, du coefficient de dés, de l’IoU et de la précision pendant l’entraînement.

Comme montré à la Figure 6(a), la perte d’entraînement et la perte de validation diminuent rapidement au cours des dix premières époques puis se stabilisent progressivement. La perte de validation reste légèrement supérieure à la perte d’entraînement tout au long du processus, mais les deux courbes suivent une tendance constante avec un petit écart, ce qui indique que le modèle ne souffre pas d’un surajustement sévère. La figure 6(b) montre que le coefficient de Dé augmente fortement au début de l’entraînement, converge après environ la 30e époque, et se stabilise au-dessus de 0,86. La courbe IoU à la figure 6(c) présente une tendance de croissance similaire, atteignant environ 0,765 lors de la phase d’entraînement tardive. La figure 6(d) indique que la précision converge au-dessus de 94 %. Les tendances de validation stables aux stades intermédiaires et avancés suggèrent que la stratégie d’augmentation des données adoptée et le calendrier de recuit cosinus contribuent à atténuer le surapprentissage sur cet ensemble de données.

Performance à travers les tailles de polypes
Pour évaluer davantage l’applicabilité de PWD-Net à différents scénarios cliniques, l’ensemble de test (100 images) est divisé en trois catégories selon le rapport entre la surface des polypes et la surface totale de l’image : petits polypes (< 5 %), polypes moyens (5 % à 30 %) et gros polypes (> 30 %). Cette classification reflète l’influence de l’échelle des polypes sur la difficulté de segmentation. Le tableau 5 présente la performance quantitative dans chaque catégorie. Comme montré dans le tableau 5, PWD-Net obtient les meilleures performances dans la catégorie des polypes moyens (Dés = 0,882, IoU = 0,790), ce qui correspond à la représentation plus large de cette catégorie (54 images test sur 100). La performance sur les grands polypes reste comparable (Dés = 0,861, IoU = 0,760). La performance sur les petits polypes est relativement inférieure (Dé = 0,812, IoU = 0,685), principalement parce que les petites cibles occupent une petite proportion de l’image et sont plus sensibles au bruit de fond avec des informations de frontière plus clairsemées.

Ces résultats suggèrent que la capacité de capture multidirectionnelle des caractéristiques du module de convolution Pinwheel et la capacité de localisation spatiale du mécanisme à double attention contribuent à maintenir une segmentation raisonnable sur différentes échelles de polypes sur l’ensemble de test évalué.

figure-results-1
Figure 1 : Cadre du modèle PWD-Net. Cadre structurel global du réseau proposé de segmentation polype basé sur la convolution Pinwheel et la double attention (PWD-Net), illustrant l’encodeur (ResNet-50), le goulot d’étranglement (PCM), les connexions de saut améliorées par DAM, le décodeur MSF et la génération de sortie pour la segmentation des polypes colorectals. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

figure-results-2
Figure 2 : Organigramme d’architecture globale de PWD-Net. Organigramme détaillé de l’architecture complète PWD-Net, montrant l’encodeur ResNet-50 à cinq étages, le goulot d’étranglement PCM, les connexions de saut DAM, le décodeur de fusion multi-échelles et la génération finale de prédiction. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

figure-results-3
Figure 3 : Schéma du module de convolution du moulin à vents. Schéma structurel et opérationnel du Module de Convolution Pinwheel, démontrant les noyaux de convolution à rotation multi-angle, la rotation basée sur l’interpolation bilinéaire, la concaténation de canaux et l’agrégation de convolutions 1 x 1. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

figure-results-4
Figure 4 : Diagramme de structure du mécanisme de double attention. Schéma architectural du DAM, montrant la branche d’attention du canal parallèle (Global Average Pooling → MLP avec rapport de réduction r = 16 → Sigmoïde) et la branche d’attention spatiale (pooling canal par canal → convolution 7 x 7 → Sigmoïde), suivie d’une fusion pondérée avec coefficients apprenables α et β. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-results-5
Figure 5 : Comparaison qualitative des résultats de segmentation. Chaque ligne représente un échantillon de test. Colonnes de gauche à droite : Entrée d’image, Ground Truth, CBSA, FSSA, MSF et PWD-Net (le nôtre). Pinwheel-Conv et PolaLinear sont omis de cette figure pour des raisons de clarté visuelle ; voir le tableau 3 pour la comparaison quantitative complète. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

figure-results-6
Figure 6 : Courbes d’entraînement de PWD-Net sur 50 époques. (a) Perte d’entraînement et de validation. (b) Coefficient de dés. (c) Intersection au-dessus de Union (IoU). (d) Précision au niveau des pixels. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Sous-ensemble d’entraînement	Nombre d’échantillons	Proportion
Train Set	800	80%
Ensemble de validation	100	10%
Ensemble de test	100	10%
Ensemble total	1000	100%

Tableau 1 : Statistiques de l’ensemble de données. Répartition des jeux de données pour le jeu de données Kvasir-SEG (1 000 images au total), montrant le nombre d’images et la proportion attribuées aux sous-ensembles d’entraînement, de validation et de test (graine aléatoire = 42).

Catégorie	Élément de paramètre	Réglage des paramètres
Cadre d’apprentissage profond	Cadre	PyTorch
Environnement matériel	GPU	NVIDIA Tesla P100
Méthode d’accélération	Accélération GPU	CUDA
Paramètres d’entrée	Taille de l’image d’entrée	352 × 352
Format d’image	Format d’image	Image RVB
Optimiseur	Optimiseur	Adam
Taux d’apprentissage initial	Initial LR	1 × 10⁻⁴
Taille du lot	Taille du lot	16
Époques d’entraînement	Époques	50
Fonction de perte	Fonction de perte	Défaites + BCE

Tableau 2 : Paramètres expérimentaux. Paramètres expérimentaux pour l’entraînement et l’évaluation PWD-Net. Veuillez consulter les étapes de préparation des données et la section 5.2 du protocole pour la procédure complète d’implémentation étape par étape.

Méthode	Dés ↑	IoU ↑	Précision ↑	Paramètres (M) ↓	FPS ↑
ASFC	0.8466	0.717	0.9325	18.4	36
FSSA	0.7109	0.551	0.9012	9.8	61
MSF	0.7337	0.585	0.9086	11.5	54
Moulin-Conv	0.8007	0.6742	0.9401	7.9	72
PolaLinear	0.7213	0.5707	0.9113	6.6	79
PWD-Net (le nôtre)	0.865	0.7651	0.9478	9.1	63

Tableau 3 : Résultats de comparaison quantitative. Comparaison quantitative de PWD-Net avec cinq méthodes existantes de segmentation des polypes sur l’ensemble de test Kvasir-SEG (100 images). Toutes les méthodes sont évaluées selon des divisions de données identiques, un prétraitement et une résolution d’entrée identiques (352 x 352). ↑ indique que plus c’est mieux ; ↓ indique que plus bas c’est mieux. Les méthodes marquées de * indiquent les résultats cités de la publication originale plutôt que réimplémentés.

Configuration	Moulin à vent	Dual-Attn	MSF	Dés ↑	IoU ↑
Référence	×	×	×	0.832	0.705
+ Moulin à vent	√	×	×	0.848	0.725
+ Double-Attn	×	√	×	0.852	0.732
+ MSF	×	×	√	0.844	0.72
+ Moulin à vent + Double Attention	√	√	×	0.858	0.748
Complet (PWD-Net)	√	√	√	0.865	0.765

Tableau 4 : Résultats de l’étude d’ablation. Les résultats de l’étude d’ablation sur l’ensemble de test Kvasir-SEG, montrant la contribution incrémentale du Module de Convolution Pinwheel (Pinwheel), du Dual-Attention Mechanism (Dual-Attn) et de la Multi-Scale Feature Fusion (MSF) à l’encodeur ResNet-50 de base.

Type de polype	Numéro	Dés ↑	IoU ↑
Petits polypes (< 5 %)	21	0.812	0.685
Polypes moyens (5 %–30 %)	54	0.882	0.79
Gros polypes (> 30 %)	25	0.861	0.76

Tableau 5 : Performance de PWD-Net sur différents types de polypes. Performance de PWD-Net sur différentes catégories de taille de polypes au sein de l’ensemble de test Kvasir-SEG (100 images). La taille des polypes est définie par le rapport entre la surface des polypes et la surface totale de l’image.

Fichier complémentaire : Archive compressée contenant l’implémentation du cadre PWD-Net. Le fichier inclut model.py la définition de l’architecture réseau avec le Module de Convolution Pinwheel (PCM) et le Dual-Attention Mechanism (DAM), train.py l’implémentation du pipeline de chargement des données, de la fonction de perte et de la procédure d’entraînement, test.py pour l’inférence et l’évaluation des modèles sur les jeux de données de test, ainsi que requirements.txt listant toutes les bibliothèques Python requises et leurs versions correspondantes. Veuillez cliquer ici pour télécharger ce fichier.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Plusieurs choix de conception dans le protocole PWD-Net sont essentiels pour obtenir des résultats de segmentation fiables et méritent une attention particulière lors de la mise en œuvre. Premièrement, la sélection et l’initialisation de la dorsale de l’encodeur influencent directement le comportement de convergence et la performance finale. Le protocole utilise un encodeur ResNet-50 pré-entraîné sur ImageNet, qui offre une initialisation robuste des fonctionnalités bas et moyen niveau. Cela est particulièrement important pour les tâches de segmentation d’images médicales où les données d’entraînement disponibles sont limitées (800 images dans la présente étude). L’ajustement fin de toutes les couches d’encodeur, plutôt que de les geler, permet au réseau d’adapter les caractéristiques pré-entraînées aux caractéristiques spécifiques des images de coloscopie, telles que les textures muqueuses et les réflexions spéculaires. Deuxièmement, le placement de chaque module central dans l’architecture est intentionnel. Le Module de Convolution à Rouet (PCM) est positionné au goulot d’étranglement, où la résolution spatiale est la plus faible mais l’information sémantique est la plus riche, permettant une capture efficace de motifs géométriques globaux sans coût computationnel excessif. Le mécanisme de double attention (DAM) est intégré dans les connexions de saut plutôt que dans le décodeur, garantissant que le bruit de fond est supprimé avant que les caractéristiques ne soient transmises au décodeur, empêchant ainsi les caractéristiques contaminées de se propager à travers les étages de fusion. L’étude d’ablation (Tableau 4) soutient cette conception : le DAM apporte le plus grand gain de performance individuel (Dice : +2,0 %), ce qui confirme l’importance de la suppression précoce du bruit dans la chaîne de fonctionnalités. Troisièmement, la fonction de perte hybride (0,5 · Av. J.-C. + 0,5 · Dice) équilibre la précision de la classification au niveau des pixels avec l’optimisation du chevauchement au niveau régional. Cette combinaison est particulièrement pertinente pour la segmentation des polypes, où le déséquilibre entre classes au premier plan et arrière-plan est fréquent. La pondération égale (λ = 0,5) est adoptée comme norme ; ajuster ce ratio peut être nécessaire pour des ensembles de données avec différentes distributions de classes (voir Dépannage ci-dessous).

Modifications et dépannage
Les modifications et directives de dépannage suivantes sont fournies pour adapter le protocole à différents contextes expérimentaux. Lors de l’application du protocole à des ensembles de données avec des résolutions d’image ou des distributions de taille de polypes différentes, la résolution d’entrée (352 x 352) peut nécessiter un ajustement. Des entrées plus grandes peuvent améliorer la détection des petits polypes au prix d’une consommation mémoire accrue et d’une réduction de la vitesse d’inférence. Si la perte d’entraînement ne converge pas dans les 50 époques, il faut envisager de réduire le taux d’apprentissage initial (par exemple, à 5 x 10⁻⁵) ou d’augmenter la durée du cycle de recuit du cosinus. Si le modèle présente des taux élevés de faux positifs dans les régions présentant des réflexions spéculaires sévères ou des plis muqueuss, augmenter le poids de la composante de perte de dés (par exemple, λ = 0,4 pour BCE, 0,6 pour Dice) peut améliorer la précision des limites au détriment de la précision au niveau des pixels. Inversement, si le modèle sous-segmente de petits polypes, augmenter le poids BCE peut aider. Le nombre d’angles de rotation dans le PCM (actuellement huit, de 0° à 315° par incréments de 45°) représente un équilibre entre la couverture directionnelle et le coût de calcul. Réduire à quatre angles (0°, 90°, 180°, 270°) diminue le calcul mais peut diminuer la sensibilité aux frontières obliques des polypes. Le rapport de réduction r = 16 dans la branche d’attention du canal du DAM suit la convention établie par les réseaux de compression et d’excitation^{antérieurs 32} ; Des ratios plus petits (par exemple, R = 8) augmentent la capacité du modèle mais peuvent entraîner un surapprentissage sur de petits ensembles de données. Pour les ensembles de données significativement plus grands que Kvasir-SEG, envisagez d’augmenter la taille du lot et d’entraîner les époques en conséquence, et de surveiller les métriques de validation afin de déterminer le point d’arrêt approprié.

Importance par rapport aux méthodes alternatives
L’architecture PWD-Net répond aux limitations spécifiques des approches existantes à travers trois modules complémentaires. Comparé aux méthodes reposant sur des noyaux de convolution carrés standard, le PCM offre une sensibilité directionnelle grâce à des noyaux rotés à plusieurs angles, permettant une meilleure adaptation à la morphologie irrégulière et diversifiée des polypes colorectals. Comparé aux mécanismes d’attention unidimensionnels (par exemple, l’attention uniquement par canal dans les réseaux de compression et^{d’excitation 33}), le DAM modélise conjointement l’importance du canal et spatial, offrant une suppression du bruit plus complète dans l’environnement complexe de la coloscopie. Comparé aux architectures basées sur Transformers telles que^{TransUNet 34} et Polyp-PVT³⁵, qui offrent une modélisation globale solide mais à un coût computationnel plus élevé, PWD-Net atteint des performances compétitives avec une taille de modèle relativement compacte (9,1 millions de paramètres) et une vitesse d’inférence pratique (63 FPS), comme documenté dans le tableau 3.

Il convient de noter que les comparaisons présentées dans cette étude (Tableau 3) sont réalisées dans des conditions contrôlées avec des protocoles identiques de répartition des données, de prétraitement et d’évaluation. Les différences de performance observées sont spécifiques à l’ensemble de tests Kvasir-SEG (100 images) utilisé dans cette étude et peuvent ne pas se généraliser directement à d’autres ensembles de données ou contextes cliniques. Une comparaison plus large, intégrant des références supplémentaires établies (par exemple, PraNet³⁶, ResUNet++³⁷) sous des benchmarks standardisés multi-ensembles de données, renforcerait encore davantage les preuves et est prévue pour des travaux futurs. Des travaux récents sur les architectures encodeur-décodeur double pour la segmentation des^{polypes 38} ont démontré le potentiel des chemins d’encodage et de décodage parallèles. L’architecture PWD-Net se distingue par l’accent sur la modélisation géométrique rotationnelle et le filtrage à double attention au sein d’un pipeline encodeur-décodeur unique, représentant une philosophie de conception complémentaire.

Plusieurs limites importantes de cette étude doivent être reconnues. Tout d’abord, concernant la portée expérimentale, la présente étude rapporte exclusivement les résultats sur le jeu de données Kvasir-SEG avec une répartition aléatoire unique de 800 images d’entraînement, 100 de validation et 100 d’essais. La taille du jeu de test (100 images) est relativement petite, et une seule séance d’entraînement est rapportée sans expériences répétées ni validation croisée. Par conséquent, les indicateurs de performance rapportés peuvent être soumis à une variance liée à la répartition spécifique des données. Les travaux futurs devraient incorporer une validation croisée k-fold ou plusieurs divisions aléatoires avec les écarts-types rapportés afin de fournir des estimations de performance plus robustes. Deuxièmement, le PCM introduit une surcharge de calcul supplémentaire grâce à la rotation et l’agrégation multi-angles du noyau. Bien que le modèle global reste compact (9,1 millions de paramètres), le déploiement sur des dispositifs à ressources limitées en environnements cliniques peut nécessiter une optimisation supplémentaire par des techniques telles que la distillation des connaissances ou l’élagage des modèles. Troisièmement, le modèle est entraîné et évalué exclusivement sur des images statiques, tandis que la coloscopie clinique implique des flux vidéo en temps réel dans lesquels l’apparence, la taille et le point de vue des polypes changent dynamiquement sur des images consécutives. Bien que la vitesse d’inférence de 63 FPS soit compatible avec les fréquences d’images en temps réel, cette métrique seule ne constitue pas une validation clinique. Une validation prospective des données vidéo endoscopiques, des études de lecteurs et des analyses cliniques en aval des critères d’évaluation serait nécessaire avant que toute affirmation de préparation clinique puisse^{être formulée} 39,40,41. Les travaux actuels doivent être compris comme une contribution méthodologique plutôt que comme un système validé cliniquement.

Quatrièmement, la voie de traduction clinique pour la segmentation des polypes assistée par IA dépasse largement la précision de segmentation. Des revues récentes ont souligné que les outils avancés d’imagerie et d’analyse doivent être intégrés dans des flux de travail endoluminaux plus larges, notamment la classification des lésions, la stadification et la planification du traitement. Le protocole actuel se concentre exclusivement sur la segmentation binaire des polypes et ne traite pas de la classification^{pathologique 42} (par exemple, polypes adénomateux vs. hyperplasiques) ni de l’évaluation du risque de cancer, qui sont essentielles pour orienter les décisions cliniques. Cinquièmement, les ensembles de données utilisés dans cette étude sont principalement dérivés d’examens de coloscopie adulte. Les données sur les polypes pédiatriques, les polypes associés à la maladie inflammatoire de l’intestin et d’autres types pathologiques particuliers ne sont pas représentées. La généralisabilité du modèle à ces populations reste non testée. Sixièmement, bien que des expériences d’ablation et des visualisations qualitatives soient fournies pour illustrer la fonction de chaque module, l’interprétabilité du modèle reste limitée. Le processus décisionnel des modèles d’apprentissage profond n’est pas totalement transparent, ce qui peut affecter la confiance et l’adoption des cliniciens. Des travaux futurs pourraient intégrer des techniques de visualisation basées sur des gradients pour fournir des explications plus intuitives des prédictions du modèle⁴³.

Malgré les limitations mentionnées ci-dessus, le protocole PWD-Net fournit un cadre reproductible pour la segmentation des polypes qui peut servir de base à un développement ultérieur. Les orientations potentielles incluent : étendre le modèle à une analyse de coloscopie vidéo en intégrant des techniques de modélisation temporelle ; ajout d’une branche de classification pour la segmentation de bout en bout et le typage pathologique ; étendre l’évaluation à des ensembles de données multicentriques plus vastes et plus diversifiés ; et exploration de l’intégration au sein des plateformes robotiques endoluminales, où l’analyse d’images assistée par IA est de plus en plus reconnue comme une technologie clé^{de l’habilitation 44,45}. Le code complémentaire fourni avec ce protocole est destiné à faciliter la reproduction et l’adaptation de la méthode par d’autres groupes de recherche.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs n’ont rien à divulguer.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cette étude a été financée par le Programme national de recherche et développement clé de Chine (programmes n° 2022YFC3500200 et 2022YFC3500204).

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Adam Optimiser	&mdash ;	&mdash ;	Inclus dans PyTorch
Albumentations	Équipe Albumentations	v1.0+	Bibliothèque d’augmentation de données
Boîte à outils CUDA	NVIDIA	v11.3+	Accélération GPU
Kvasir-SEG dataset	SimulaMet	&mdash ;	https://datasets.simula.no/kvasir-seg/
Matplotlib	Communauté Matplotlib	v3.4+	Visualisation des courbes d’entraînement
NumPy	Communauté NumPy	v1.21+	Calcul numérique
NVIDIA Tesla P100	NVIDIA	P100-PCIE-16GB	GPU pour l’entraînement et l’inférence
OpenCV	Communauté OpenCV	v4.5+	Prétraitement d’image
Python	Fondation Python Software	v3.8+	Langage de programmation
PyTorch	Meta Platforms	v1.12+	Cadre d’apprentissage profond
Poids préentraînés ResNet-50	PyTorch Model Zoo	&mdash ;	ImageNet-1K pré-entraîné
Ubuntu	Canonique	18.04+	Système d’exploitation

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Réseau de segmentation des polypes basé sur la convolution en moulin et une double attention pour le diagnostic des lésions précancéreuses colorectales

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles