Ce protocole implémente un réseau d’apprentissage profond en forme de U intégrant convolution en moulin à vent, double attention et fusion multi-échelle pour segmenter les polypes colorectals.
Method Article
Ce protocole implémente un réseau d’apprentissage profond en forme de U intégrant convolution en moulin à vent, double attention et fusion multi-échelle pour segmenter les polypes colorectals.
Une segmentation précise des polypes colorectaux est cruciale pour la prévention précoce et le diagnostic du cancer colorectal. Cependant, en raison de la forte hétérogénéité des polypes en termes de forme, de taille et de texture, ainsi que de la complexité de l’environnement intestinal (tels que les plis, les réflexions spéculaires et les résidus fécals), les méthodes existantes rencontrent encore des défis importants dans la localisation des limites et la détection des petits polypes. Pour répondre à ces problèmes, cet article propose un réseau de segmentation des polypes basé sur la convolution en moulin à épingle et la double attention (PWD-Net). Le réseau proposé adopte une architecture encodeur-décodeur en U, où un ResNet pré-entraîné est employé comme encodeur pour extraire des fonctionnalités locales multi-niveaux. Plus précisément, un module de convolution Pinwheel (PCM) est introduit à la couche goulot d’étranglement pour capturer la structure géométrique globale et l’information contextuelle multidirectionnelle des polypes via des noyaux de convolution rotés à plusieurs angles. Un mécanisme à double attention (DAM) qui intègre l’attention du canal et l’attention spatiale est conçu pour supprimer de manière adaptative le bruit de fond et renforcer les caractéristiques de la région des polypes. De plus, une stratégie de fusion multi-échelle (MSF) est employée pour combiner des informations sémantiques profondes avec des détails de frontières peu profonds, garantissant à la fois l’exhaustivité et la précision des résultats de segmentation. Des expériences menées sur les ensembles de données Kvasir-SEG et CVC-ClinicDB démontrent que PWD-Net atteint des coefficients Dice moyens de 0,865 et 0,944, et des scores IoU de 0,765 et 0,892 respectivement, surpassant nettement les méthodes de pointe existantes. Les études d’ablation vérifient l’efficacité de chaque module, et les évaluations croisées confirment la forte capacité de généralisation du modèle. Cette étude propose une solution robuste et de haute précision pour la segmentation clinique des polypes, offrant une valeur significative pour le diagnostic précoce des lésions précancéreuses colorectales et soutenant l’intervention assistée par ordinateur.
Le cancer colorectal est l’une des tumeurs malignes les plus courantes dans le monde, avec des taux d’incidence et de mortalité constamment élevés. Des études ont montré que la plupart des cancers colorectaux se développent à partir de polypes adénomateux, un processus qui dure généralement 10 à 15 ans, offrant une fenêtre temporelle précieuse pour la détection précoce et l’intervention. Une augmentation de 1 % du taux de détection des adénomes (ADR) peut réduire le risque de cancer colorectal d’environ 3 %, diminuant significativement la mortalité despatients 1. La coloscopie, considérée comme la référence en matière de dépistage du cancer colorectal, permet l’élimination directe des polypes lors de l’examen, réduisant ainsi efficacement l’incidence et la mortalité du cancer.
Cependant, la coloscopie conventionnelle dépend fortement de l’expérience et du niveau de compétence des endoscopistes. Des facteurs tels que le jugement subjectif, la fatigue visuelle et la distraction peuvent entraîner un taux d’échec de 20 % à 30 %, ce qui affecte directement l’efficacité du dépistage2. Par conséquent, développer des systèmes de détection assistée par ordinateur (CAO) pour la segmentation automatique des polypes colorrectaux revêt une importance considérable pour améliorer la RAM et réduire les diagnostics manqués. Des enquêtes cliniques récentes ont également mis en lumière l’intérêt pour l’intégration de l’intelligence artificielle dans les flux de travail d’évaluation endoscopique des lésions, renforçant ainsi la nécessité de méthodes de segmentation robusteset reproductibles 3.
Ces dernières années, l’apprentissage profond a réalisé des progrès remarquables dans l’analyse d’images médicales, en particulier les réseaux neuronaux convolutionnels (CNN), qui démontrent une forte capacité d’extraction et de représentation de caractéristiques pour les tâches de segmentationd’images 4. En tant que modèle classique de segmentation d’image médicale, U-Net utilise une architecture encodeur-décodeur symétrique et des connexions à saut pour obtenir une segmentation précise au niveau des pixels, devenant une référence dans cedomaine 5. S’appuyant sur U-Net, de nombreuses architectures améliorées ont été proposées pour répondre à des tâches complexes de segmentation d’images médicales. UNet++ réduit l’écart sémantique entre les cartes de caractéristiques de l’encodeur et du décodeur en introduisant des connexions de saut imbriquées etdenses 6. ResUNet++ intègre des blocs résiduels, des modules de compression et d’excitation, des convolutions dilatées et des mécanismes d’attention, atteignant de fortes performances en segmentation depolypes 7. U2-Net adopte une structure imbriquée en forme de U à deux niveaux pour capturer des informations de caractéristiquesmulti-échelle 8. Plus récemment, un réseau de segmentation profonde de polypes basé sur un double encodeur-décodeur a été proposé, exploitant les chemins d’encodage et de décodage parallèles pour améliorer encore la précision desegmentation 9.
Par contre, l’introduction de mécanismes d’attention apporte de nouvelles solutions pour l’amélioration des caractéristiques et la suppression du bruit. Attention U-Net utilise des portails d’attention pour se concentrer sur les régions cibles tout en supprimant les informations de fond nonpertinentes 10. Le Double Attention Network (DANet) pondère adaptativement les caractéristiques à partir des dimensions du canal etspatiales 11, améliorant ainsi la perception des caractéristiques critiques. Les réseaux à triple attention (TANet) améliorent encore la performance de segmentation grâce à la sélection adaptative de fonctionnalitésmulti-échelle 12.
Avec le succès des architectures Transformer dans le traitement du langage naturel et la vision parordinateur 13, les chercheurs ont commencé à explorer leur application dans la segmentation d’images médicales. TransUNet a été le premier à utiliser un Transformer comme encodeur pour modéliser efficacement les dépendances à longueportée 14. Swin-UNet adopte une architecture purement Transformer et réalise une agrégation globale efficace de l’information grâce à un mécanisme à fenêtredécalée 15. UTNet propose une architecture hybride qui combine la capacité d’extraction locale des caractéristiques des CNN avec la modélisation globale de Transformers16.
Dans le domaine de la segmentation des polypes, Polyp-PVT utilise un Transformer à vision pyramidale pour capturer l’information sémantique globalemulti-échelle 17, tandis que l’UNet imbriqué multi-échelle améliore la compréhension contextuelle en intégrant Transformers18. Des études récentes ont également exploré des stratégies d’apprentissage par corrélation négative pour la segmentation inter-domainedes polypes 19, l’amélioration de la segmentation augmentée parGompertz 20, ainsi que des architectures basées sur l’attention incorporant un guidage de frontière21. Bien que ces approches améliorent dans une certaine mesure la performance de la segmentation, la segmentation des polypes rencontre encore plusieurs défis. Premièrement, les polypes présentent une forte hétérogénéité morphologie, taille et texture, allant de micro-polypes de plus de 5 mm à de gros polypes dépassant 30 mm, avec des formes allant de circulaires et elliptiques à des formes très irrégulières. Deuxièmement, l’environnement intestinal est complexe et variable, où les plis muqueuss, les réflexions spéculaires, les résidus fécaux et les débris alimentaires introduisent une interférence de fond sévère. Troisièmement, de nombreux polypes présentent des frontières floues, peuvent être partiellement obstrués par des plis ou submergés dans des liquides intestinaux, rendant la localisation précise des limites extrêmementdifficile 22.
Les méthodes existantes présentent encore des limites claires pour relever ces défis. Les CNN traditionnels sont efficaces pour extraire les textures locales et les contours ; cependant, les noyaux de convolution carrés fixes ne sont pas bien adaptés à la capture de formes géométriques diverses23, en particulier pour les polypes très irréguliers, et ne peuvent pas modéliser efficacement des caractéristiques géométriques multidirectionnelles. Les méthodes basées sur des transformateurs peuvent modéliser les dépendances globales mais sont moins efficaces pour capturer des détails locaux fins et des informations de frontière. De plus, leur grande complexité de calcul les rend moins adaptés aux applications cliniques en tempsréel 24. Les approches récentes de segmentation des polypes telles que PraNet, qui utilise des modules d’attention inversée pour affiner les régionsclés 25, les réseaux d’attention en cascade guidés par les frontières qui améliorent l’extraction des caractéristiquesdes limites 26, et CAFE-Net, qui fusionne les caractéristiques encodeur et décodeur via des mécanismes d’attentioncroisée 27, rencontrent encore une représentation des caractéristiques insuffisante et une localisation des limites imprécise lors de la gestion de petitspolypes 28, des frontières floues et des arrière-plans complexes. De plus, la plupart des méthodes négligent la morphologie géométrique et ne parviennent pas à exploiter pleinement les informations contextuelles multidirectionnelles, ce qui entraîne une segmentation sous-optimale des polypes de forme irrégulière.
En résumé, les méthodes actuelles basées sur CNN ne permettent pas de capturer des caractéristiques géométriques multidirectionnelles en raison de leur dépendance aux noyaux de convolution carrés fixes. Les approches basées sur les transformateurs offrent une modélisation globale mais sacrifient la précision des frontières locales et imposent des coûts de calcul élevés. Par ailleurs, les stratégies existantes de fusion à attention améliorée et à plusieurs échelles n’ont pas été optimisées conjointement dans un cadre unifié spécifiquement adapté à la segmentationdes polypes 29. Ces lacunes motivent le développement d’une méthode qui aborde simultanément la modélisation géométrique des caractéristiques, la suppression adaptative du bruit et l’intégration des caractéristiques à l’échelle croisée.
Pour résoudre ces problèmes, ce protocole présente un réseau de segmentation de polypes basé sur la convolution en moulin à éponge et la double attention (PWD-Net). Le réseau proposé intègre la modélisation géométrique des caractéristiques, l’amélioration de l’attention multidimensionnelle et la fusion de caractéristiques à plusieurs échelles, permettant une segmentation précise des polypes complexes. Les principales contributions de ce travail sont résumées ainsi : le module de convolution en moulin à pile (PCM), inspiré de la structure d’un moulin à vent, propose un nouveau noyau de convolution tourné qui capture les caractéristiques géométriques multidirectionnelles des polypes par des opérations de convolution à plusieurs angles (0°, 45°, 90°, 135°, 180°, 225°, 270° et 315°). Ce module remplace la couche de convolution conventionnelle à l’étape du goulot d’étranglement, permettant une perception efficace des orientations diverses des arêtes et améliorant significativement la représentation des polypes de forme irrégulière. Le mécanisme de double attention (DAM) traite les bruits de fond tels que les plis, les réflexions et les résidus fécaux dans les images de coloscopie. Un module à double attention intégrant l’attention canalisée et l’attention spatiale est conçu. Intégré dans les connexions à saut, ce module supprime de manière adaptative les interférences de fond et améliore les réponses des caractéristiques dans les régions polypes en identifiant conjointement « ce qui » est important (dimension du canal) et « où » la cible se trouve (dimension spatiale), garantissant que seules les caractéristiques affinées sont impliquées dans la fusion ultérieure. La stratégie de fusion de caractéristiques multi-échelles (MSF) préserve à la fois des informations sémantiques profondes et des détails superficiels des frontières grâce à un mécanisme hiérarchique introduit dans le décodeur. En intégrant progressivement les caractéristiques de l’encodeur amélioré par DAM avec des caractéristiques de décodeur suréchantillonné, cette stratégie compense efficacement la perte de détails spatiale causée par le downsampling, permettant une détection précise de petits polypes et une délimitation précise des frontières.
Cette étude utilise uniquement des ensembles de données d’images anonymisées et anonymisées publiques (Kvasir-SEG). Aucune nouvelle donnée sur les sujets humains n’a été collectée. L’approbation éthique institutionnelle et le consentement éclairé des patients n’étaient pas requis, comme le confirment les politiques d’examen institutionnel pour les analyses rétrospectives de jeux de données publics désidentifiés.
1. Préparation des données
2. Architecture générale
REMARQUE : Voir la Figure 1 pour la colonne vertébrale encodeur-décodeur au niveau macro de PWD-Net, et la Figure 2 pour l’intégration et l’interaction des modules de base dans le flux de fonctionnalités. L’architecture globale suit un design encodeur-décodeur en forme de U pour gérer les variations d’échelle des polypes et les interférences de fond dans les images de coloscopie.
3. Module de convolution des moulins à piquet (Figure 3)

4. Mécanisme de double attention (Figure 4)
REMARQUE : Le mécanisme de double attention (DAM) est intégré à chaque connexion de saut pour supprimer le bruit de fond et renforcer les caractéristiques de la région polyp, tant dans les dimensions du canal que spatiales.


5. Fusion multi-échelle des caractéristiques
6. Fonction de perte et configuration d’entraînement



7. Pseudocode
Algorithme 1 : Segmentation des polypes PWD-Net
1 : Entrée : Image de coloscopie I ∈ RH×W×3
2 : Sortie : Masque de segmentation M ∈ {0,1}(H×W)
3:
4 : fonction Module de convolution PCM(X) ▷ Moulin à vent
5 : Définissons le noyau de base W (3 x 3), angles Θ = {0°, 45°, ..., 315°}
6 : pour chaque θ ∈ Θ faire
7 : Wθ ← BilinearRotate(W, θ) ▷ Rotate kernel
8 : Yθ ← Conv2d(X, Wθ) ▷ Caractéristiques spécifiques à la direction
9 : fin pour
10 : Yout ← ReLU(BN(Conv1 x 1(Concat({Yθ})))) ▷ Aggregate
11 : retour de Ydehors
12 : fin de fonction
13:
14 : fonction DAM(F) ▷ Mécanisme à double attention
15 : Ac ← Sigmoid(MLP(AvgPool(F))) ▷ Attention de canal (r=16)
16 : As ← Sigmoid (Conv7 x 7([AvgPool(F) ; MaxPool(F)])) ▷ Attention spatiale
17 : F' ← F ⊗ (α · Ac + β · As) ▷ Fusionner avec α apprenable, β (init=0,5)
18 : retour F'
19 : fonction finale
20:
21 : fonction PWD-Net(I)
22 : Encodeur : e1,e 2,e 3,e 4,e 5 ← ResNet50_Stages(I) ▷ Encodeur préentraîné à 5 étapes
23 : Goulot d’étranglement : b ← PCM(e5) ▷ Appliquer PCM au goulot d’étranglement
24 : Ignorer les connexions : si ← DAM(e i) pour i = 1, 2, 3, 4 ▷ Fonctionnalités de l’encodeur du filtre
25 : Décodeur :
26 : d 4 ← DoubleConv(Concat(Up(b), s4))
27 : d 3 ← DoubleConv(Concat(Up(d4), s3))
28 : d 2 ← DoubleConv(Concat(Up(d3), s2))
29 : d 1 ← DoubleConv(Concat(Up(d 2), s1))
30 : M ← Sigmoïde (Conv1 x 1(d1))
31 : retour M
32 : fonction finale
33:
34 : Entraînement :
35 : pour chaque époque, faire
36 : M̂ ← PWD-Net(I)
37 : L ← 0,5 · av. J.-C. (M̂,M gt) + 0,5 · DésPerte (M̂,M gt) ▷ λ = 0,5
38 : Mettre à jour les paramètres via rétropropagation (Adamoptimiser r)
39 : fin pour
Installation expérimentale
Jeu de données
Le jeu de données Kvasir SEG a été utilisé pour évaluer le comportement de segmentation de PWD Net sur des images de coloscopie présentant des apparences de polypes hétérogènes. Le jeu de données contient des images annotées de 1 000 pixels de polypes et comprend des variations de taille, de forme, de texture, d’illumination et de complexité de fond des polypes, ce qui le rend adapté à l’évaluation de la détection de petites cibles, de la localisation des limites et de la robustesse face aux interférences visuelles. Le jeu de données était divisé en sous-ensembles d’entraînement, de validation et de test, et l’ensemble final de test n’était utilisé que pour l’évaluation des performances. La répartition des images est résumée dans le tableau 1.
Détails de l’implémentation
Les paramètres d’implémentation nécessaires à la reproductibilité sont résumés dans le Tableau 2, et les détails procéduraux complets sont fournis dans les étapes de Préparation des données et la section 5.2 du protocole. Pour interpréter les résultats, toutes les expériences rapportées utilisaient la même résolution d’entrée, le même environnement matériel et les mêmes conditions d’évaluation listés dans le tableau des matériaux. Les valeurs rapportées sont basées sur le point de contrôle de dés de validation sélectionné à partir d’une seule exécution utilisant seed = 42, donc les résultats doivent être interprétés comme des performances sous une répartition expérimentale fixe plutôt que comme des résultats de validation croisée moyennés.
Indicateurs d’évaluation
La performance de segmentation a été évaluée en utilisant le coefficient de Dice, l’intersection sur l’union, la précision au niveau des pixels et la vitesse d’inférence. Le coefficient de dés et l’intersection sur l’union ont été utilisés comme principales métriques basées sur le chevauchement car elles reflètent directement l’accord entre le masque prédit et la région de polypes annotée par des experts. La précision au niveau des pixels a été rapportée comme mesure complémentaire car les images de coloscopie contiennent souvent de grandes régions de fond. La vitesse d’inférence, rapportée en images par seconde, a été incluse pour évaluer si le modèle maintient une efficacité computationnelle pratique tout en améliorant la qualité de segmentation.
Comparaison avec les méthodes existantes
Pour démontrer le comportement et l’efficacité de PWD-Net, une comparaison est réalisée avec cinq méthodes représentatives de segmentation des polypes : CBSA (Channel-Boosted Spatial Attention Network)34, FSSA (Feature-Shared Spatial Attention Network), MSF (Multi-Scale Fusion Network), Pinwheel-Conv (base de convolution Pinwheel sans module d’attention ni de fusion) et PolaLinear (réseau d’attention linéaire polarisé). Toutes les méthodes de comparaison sont réimplémentées en utilisant leurs codes sources officiellement publiés et entraînées sur le même ensemble d’entraînement Kvasir-SEG (800 images) sous le même prétraitement, résolution d’entrée (352 x 352) et paramètres d’évaluation identiques afin d’assurer une comparaison équitable. Le tableau 3 présente les résultats quantitatifs sur l’ensemble de test.
Comme le montre le tableau 3, PWD-Net atteint un coefficient de dés de 0,865 et un IoU de 0,765, ce qui représente des améliorations de 1,8 % dans Dice et de 4,8 % en IoU par rapport à la méthode suivante (CBSA). Notamment, PWD-Net atteint cela avec des paramètres de 9,1 M, contre 18,4 millions pour le CBSA, indiquant une efficacité favorable. Bien que PolaLinear et Pinwheel-Conv offrent des vitesses d’inférence plus rapides (79 et 72 FPS, respectivement), leur précision de segmentation est nettement inférieure, ce qui suggère que PWD-Net offre un équilibre raisonnable entre précision et coût computationnel pour l’ensemble de données évalué. Pour illustrer le comportement qualitatif de segmentation, cinq échantillons de test représentatifs couvrant de petits polypes, de grands polypes, des arrière-plans complexes et des frontières floues sont sélectionnés pour une comparaison visuelle. La figure 5 présente les résultats de segmentation de quatre méthodes de comparaison sélectionnées (CBSA, FSSA, MSF et PWD-Net) aux côtés de la vérité sur le terrain. Chaque colonne de prédiction est étiquetée avec le nom de la méthode correspondante. Pinwheel-Conv et PolaLinear sont omis de cette figure pour des raisons de clarté visuelle, car leurs performances quantitatives sont nettement inférieures ; cette figure représente donc un sous-ensemble sélectionné des méthodes comparées dans le tableau 3.
Comme montré à la Figure 5, dans les scénarios de petits polypes (première et cinquième rangées), FSSA et MSF présentent des détections manquées, tandis que PWD-Net capture les cibles de manière plus complète. Dans les scénarios de gros polypes (deuxième et troisième rangée), la CBSA et la FSSA produisent des irrégularités de frontière notables, tandis que PWD-Net génère des frontières plus lisses. Dans le scénario à frontière floue (quatrième rangée), PWD-Net démontre une suppression efficace du bruit de fond via le mécanisme de double attention.
Étude d’ablation
Pour analyser la contribution de chaque composant central de PWD-Net, une étude d’ablation systématique est réalisée. En utilisant ResNet-50 comme encodeur dorsale pour former le modèle de base, le module de convolution Pinwheel (Pinwheel), le mécanisme de double attention (Dual-Attn) et le module Multi-Scale Feature Fusion (MSF) sont intégrés progressivement. Le tableau 4 résume les résultats quantitatifs.
Les principaux résultats du tableau 4 peuvent être résumés comme suit. Premièrement, l’ajout d’un module unique améliore les performances du modèle de base. Le mécanisme de double attention apporte les gains les plus notables (Dés : +2,0 %, IoU : +2,7 %), soutenant l’efficacité de la suppression adaptative du bruit. Le module de convolution Pinwheel apporte une amélioration de 1,6 % de Dice, ce qui indique l’avantage de l’extraction multidirectionnelle des caractéristiques pour les formes irrégulières de polypes. Deuxièmement, la combinaison de la convolution Pinwheel et du mécanisme de double attention augmente encore les performances à Dice = 0,858 et IoU = 0,748, suggérant une complémentarité entre les deux modules. Enfin, le PWD-Net complet (intégrant les trois modules) obtient la meilleure performance observée (Dice = 0,865, IoU = 0,765), avec des améliorations de 3,3 % et 6,0 % respectivement, par rapport à la base, démontrant la contribution de chaque composant proposé à cet ensemble de données.
Analyse du processus de formation
Pour illustrer la dynamique d’entraînement et les caractéristiques de convergence de PWD-Net, des indicateurs clés de performance sont enregistrés et visualisés sur 50 périodes d’entraînement. La figure 6 montre les variations de la fonction de perte, du coefficient de dés, de l’IoU et de la précision pendant l’entraînement.
Comme montré à la Figure 6(a), la perte d’entraînement et la perte de validation diminuent rapidement au cours des dix premières époques puis se stabilisent progressivement. La perte de validation reste légèrement supérieure à la perte d’entraînement tout au long du processus, mais les deux courbes suivent une tendance constante avec un petit écart, ce qui indique que le modèle ne souffre pas d’un surajustement sévère. La figure 6(b) montre que le coefficient de Dé augmente fortement au début de l’entraînement, converge après environ la 30e époque, et se stabilise au-dessus de 0,86. La courbe IoU à la figure 6(c) présente une tendance de croissance similaire, atteignant environ 0,765 lors de la phase d’entraînement tardive. La figure 6(d) indique que la précision converge au-dessus de 94 %. Les tendances de validation stables aux stades intermédiaires et avancés suggèrent que la stratégie d’augmentation des données adoptée et le calendrier de recuit cosinus contribuent à atténuer le surapprentissage sur cet ensemble de données.
Performance à travers les tailles de polypes
Pour évaluer davantage l’applicabilité de PWD-Net à différents scénarios cliniques, l’ensemble de test (100 images) est divisé en trois catégories selon le rapport entre la surface des polypes et la surface totale de l’image : petits polypes (< 5 %), polypes moyens (5 % à 30 %) et gros polypes (> 30 %). Cette classification reflète l’influence de l’échelle des polypes sur la difficulté de segmentation. Le tableau 5 présente la performance quantitative dans chaque catégorie. Comme montré dans le tableau 5, PWD-Net obtient les meilleures performances dans la catégorie des polypes moyens (Dés = 0,882, IoU = 0,790), ce qui correspond à la représentation plus large de cette catégorie (54 images test sur 100). La performance sur les grands polypes reste comparable (Dés = 0,861, IoU = 0,760). La performance sur les petits polypes est relativement inférieure (Dé = 0,812, IoU = 0,685), principalement parce que les petites cibles occupent une petite proportion de l’image et sont plus sensibles au bruit de fond avec des informations de frontière plus clairsemées.
Ces résultats suggèrent que la capacité de capture multidirectionnelle des caractéristiques du module de convolution Pinwheel et la capacité de localisation spatiale du mécanisme à double attention contribuent à maintenir une segmentation raisonnable sur différentes échelles de polypes sur l’ensemble de test évalué.

Figure 1 : Cadre du modèle PWD-Net. Cadre structurel global du réseau proposé de segmentation polype basé sur la convolution Pinwheel et la double attention (PWD-Net), illustrant l’encodeur (ResNet-50), le goulot d’étranglement (PCM), les connexions de saut améliorées par DAM, le décodeur MSF et la génération de sortie pour la segmentation des polypes colorectals. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 2 : Organigramme d’architecture globale de PWD-Net. Organigramme détaillé de l’architecture complète PWD-Net, montrant l’encodeur ResNet-50 à cinq étages, le goulot d’étranglement PCM, les connexions de saut DAM, le décodeur de fusion multi-échelles et la génération finale de prédiction. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 3 : Schéma du module de convolution du moulin à vents. Schéma structurel et opérationnel du Module de Convolution Pinwheel, démontrant les noyaux de convolution à rotation multi-angle, la rotation basée sur l’interpolation bilinéaire, la concaténation de canaux et l’agrégation de convolutions 1 x 1. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 4 : Diagramme de structure du mécanisme de double attention. Schéma architectural du DAM, montrant la branche d’attention du canal parallèle (Global Average Pooling → MLP avec rapport de réduction r = 16 → Sigmoïde) et la branche d’attention spatiale (pooling canal par canal → convolution 7 x 7 → Sigmoïde), suivie d’une fusion pondérée avec coefficients apprenables α et β. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5 : Comparaison qualitative des résultats de segmentation. Chaque ligne représente un échantillon de test. Colonnes de gauche à droite : Entrée d’image, Ground Truth, CBSA, FSSA, MSF et PWD-Net (le nôtre). Pinwheel-Conv et PolaLinear sont omis de cette figure pour des raisons de clarté visuelle ; voir le tableau 3 pour la comparaison quantitative complète. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 6 : Courbes d’entraînement de PWD-Net sur 50 époques. (a) Perte d’entraînement et de validation. (b) Coefficient de dés. (c) Intersection au-dessus de Union (IoU). (d) Précision au niveau des pixels. Veuillez cliquer ici pour voir une version agrandie de cette figurine.
| Sous-ensemble d’entraînement | Nombre d’échantillons | Proportion |
| Train Set | 800 | 80% |
| Ensemble de validation | 100 | 10% |
| Ensemble de test | 100 | 10% |
| Ensemble total | 1000 | 100% |
Tableau 1 : Statistiques de l’ensemble de données. Répartition des jeux de données pour le jeu de données Kvasir-SEG (1 000 images au total), montrant le nombre d’images et la proportion attribuées aux sous-ensembles d’entraînement, de validation et de test (graine aléatoire = 42).
| Catégorie | Élément de paramètre | Réglage des paramètres |
| Cadre d’apprentissage profond | Cadre | PyTorch |
| Environnement matériel | GPU | NVIDIA Tesla P100 |
| Méthode d’accélération | Accélération GPU | CUDA |
| Paramètres d’entrée | Taille de l’image d’entrée | 352 × 352 |
| Format d’image | Format d’image | Image RVB |
| Optimiseur | Optimiseur | Adam |
| Taux d’apprentissage initial | Initial LR | 1 × 10⁻4 |
| Taille du lot | Taille du lot | 16 |
| Époques d’entraînement | Époques | 50 |
| Fonction de perte | Fonction de perte | Défaites + BCE |
Tableau 2 : Paramètres expérimentaux. Paramètres expérimentaux pour l’entraînement et l’évaluation PWD-Net. Veuillez consulter les étapes de préparation des données et la section 5.2 du protocole pour la procédure complète d’implémentation étape par étape.
| Méthode | Dés ↑ | IoU ↑ | Précision ↑ | Paramètres (M) ↓ | FPS ↑ |
| ASFC | 0.8466 | 0.717 | 0.9325 | 18.4 | 36 |
| FSSA | 0.7109 | 0.551 | 0.9012 | 9.8 | 61 |
| MSF | 0.7337 | 0.585 | 0.9086 | 11.5 | 54 |
| Moulin-Conv | 0.8007 | 0.6742 | 0.9401 | 7.9 | 72 |
| PolaLinear | 0.7213 | 0.5707 | 0.9113 | 6.6 | 79 |
| PWD-Net (le nôtre) | 0.865 | 0.7651 | 0.9478 | 9.1 | 63 |
Tableau 3 : Résultats de comparaison quantitative. Comparaison quantitative de PWD-Net avec cinq méthodes existantes de segmentation des polypes sur l’ensemble de test Kvasir-SEG (100 images). Toutes les méthodes sont évaluées selon des divisions de données identiques, un prétraitement et une résolution d’entrée identiques (352 x 352). ↑ indique que plus c’est mieux ; ↓ indique que plus bas c’est mieux. Les méthodes marquées de * indiquent les résultats cités de la publication originale plutôt que réimplémentés.
| Configuration | Moulin à vent | Dual-Attn | MSF | Dés ↑ | IoU ↑ |
| Référence | × | × | × | 0.832 | 0.705 |
| + Moulin à vent | √ | × | × | 0.848 | 0.725 |
| + Double-Attn | × | √ | × | 0.852 | 0.732 |
| + MSF | × | × | √ | 0.844 | 0.72 |
| + Moulin à vent + Double Attention | √ | √ | × | 0.858 | 0.748 |
| Complet (PWD-Net) | √ | √ | √ | 0.865 | 0.765 |
Tableau 4 : Résultats de l’étude d’ablation. Les résultats de l’étude d’ablation sur l’ensemble de test Kvasir-SEG, montrant la contribution incrémentale du Module de Convolution Pinwheel (Pinwheel), du Dual-Attention Mechanism (Dual-Attn) et de la Multi-Scale Feature Fusion (MSF) à l’encodeur ResNet-50 de base.
| Type de polype | Numéro | Dés ↑ | IoU ↑ |
| Petits polypes (< 5 %) | 21 | 0.812 | 0.685 |
| Polypes moyens (5 %–30 %) | 54 | 0.882 | 0.79 |
| Gros polypes (> 30 %) | 25 | 0.861 | 0.76 |
Tableau 5 : Performance de PWD-Net sur différents types de polypes. Performance de PWD-Net sur différentes catégories de taille de polypes au sein de l’ensemble de test Kvasir-SEG (100 images). La taille des polypes est définie par le rapport entre la surface des polypes et la surface totale de l’image.
Fichier complémentaire : Archive compressée contenant l’implémentation du cadre PWD-Net. Le fichier inclut model.py la définition de l’architecture réseau avec le Module de Convolution Pinwheel (PCM) et le Dual-Attention Mechanism (DAM), train.py l’implémentation du pipeline de chargement des données, de la fonction de perte et de la procédure d’entraînement, test.py pour l’inférence et l’évaluation des modèles sur les jeux de données de test, ainsi que requirements.txt listant toutes les bibliothèques Python requises et leurs versions correspondantes. Veuillez cliquer ici pour télécharger ce fichier.
Plusieurs choix de conception dans le protocole PWD-Net sont essentiels pour obtenir des résultats de segmentation fiables et méritent une attention particulière lors de la mise en œuvre. Premièrement, la sélection et l’initialisation de la dorsale de l’encodeur influencent directement le comportement de convergence et la performance finale. Le protocole utilise un encodeur ResNet-50 pré-entraîné sur ImageNet, qui offre une initialisation robuste des fonctionnalités bas et moyen niveau. Cela est particulièrement important pour les tâches de segmentation d’images médicales où les données d’entraînement disponibles sont limitées (800 images dans la présente étude). L’ajustement fin de toutes les couches d’encodeur, plutôt que de les geler, permet au réseau d’adapter les caractéristiques pré-entraînées aux caractéristiques spécifiques des images de coloscopie, telles que les textures muqueuses et les réflexions spéculaires. Deuxièmement, le placement de chaque module central dans l’architecture est intentionnel. Le Module de Convolution à Rouet (PCM) est positionné au goulot d’étranglement, où la résolution spatiale est la plus faible mais l’information sémantique est la plus riche, permettant une capture efficace de motifs géométriques globaux sans coût computationnel excessif. Le mécanisme de double attention (DAM) est intégré dans les connexions de saut plutôt que dans le décodeur, garantissant que le bruit de fond est supprimé avant que les caractéristiques ne soient transmises au décodeur, empêchant ainsi les caractéristiques contaminées de se propager à travers les étages de fusion. L’étude d’ablation (Tableau 4) soutient cette conception : le DAM apporte le plus grand gain de performance individuel (Dice : +2,0 %), ce qui confirme l’importance de la suppression précoce du bruit dans la chaîne de fonctionnalités. Troisièmement, la fonction de perte hybride (0,5 · Av. J.-C. + 0,5 · Dice) équilibre la précision de la classification au niveau des pixels avec l’optimisation du chevauchement au niveau régional. Cette combinaison est particulièrement pertinente pour la segmentation des polypes, où le déséquilibre entre classes au premier plan et arrière-plan est fréquent. La pondération égale (λ = 0,5) est adoptée comme norme ; ajuster ce ratio peut être nécessaire pour des ensembles de données avec différentes distributions de classes (voir Dépannage ci-dessous).
Modifications et dépannage
Les modifications et directives de dépannage suivantes sont fournies pour adapter le protocole à différents contextes expérimentaux. Lors de l’application du protocole à des ensembles de données avec des résolutions d’image ou des distributions de taille de polypes différentes, la résolution d’entrée (352 x 352) peut nécessiter un ajustement. Des entrées plus grandes peuvent améliorer la détection des petits polypes au prix d’une consommation mémoire accrue et d’une réduction de la vitesse d’inférence. Si la perte d’entraînement ne converge pas dans les 50 époques, il faut envisager de réduire le taux d’apprentissage initial (par exemple, à 5 x 10⁻5) ou d’augmenter la durée du cycle de recuit du cosinus. Si le modèle présente des taux élevés de faux positifs dans les régions présentant des réflexions spéculaires sévères ou des plis muqueuss, augmenter le poids de la composante de perte de dés (par exemple, λ = 0,4 pour BCE, 0,6 pour Dice) peut améliorer la précision des limites au détriment de la précision au niveau des pixels. Inversement, si le modèle sous-segmente de petits polypes, augmenter le poids BCE peut aider. Le nombre d’angles de rotation dans le PCM (actuellement huit, de 0° à 315° par incréments de 45°) représente un équilibre entre la couverture directionnelle et le coût de calcul. Réduire à quatre angles (0°, 90°, 180°, 270°) diminue le calcul mais peut diminuer la sensibilité aux frontières obliques des polypes. Le rapport de réduction r = 16 dans la branche d’attention du canal du DAM suit la convention établie par les réseaux de compression et d’excitationantérieurs 32 ; Des ratios plus petits (par exemple, R = 8) augmentent la capacité du modèle mais peuvent entraîner un surapprentissage sur de petits ensembles de données. Pour les ensembles de données significativement plus grands que Kvasir-SEG, envisagez d’augmenter la taille du lot et d’entraîner les époques en conséquence, et de surveiller les métriques de validation afin de déterminer le point d’arrêt approprié.
Importance par rapport aux méthodes alternatives
L’architecture PWD-Net répond aux limitations spécifiques des approches existantes à travers trois modules complémentaires. Comparé aux méthodes reposant sur des noyaux de convolution carrés standard, le PCM offre une sensibilité directionnelle grâce à des noyaux rotés à plusieurs angles, permettant une meilleure adaptation à la morphologie irrégulière et diversifiée des polypes colorectals. Comparé aux mécanismes d’attention unidimensionnels (par exemple, l’attention uniquement par canal dans les réseaux de compression etd’excitation 33), le DAM modélise conjointement l’importance du canal et spatial, offrant une suppression du bruit plus complète dans l’environnement complexe de la coloscopie. Comparé aux architectures basées sur Transformers telles queTransUNet 34 et Polyp-PVT35, qui offrent une modélisation globale solide mais à un coût computationnel plus élevé, PWD-Net atteint des performances compétitives avec une taille de modèle relativement compacte (9,1 millions de paramètres) et une vitesse d’inférence pratique (63 FPS), comme documenté dans le tableau 3.
Il convient de noter que les comparaisons présentées dans cette étude (Tableau 3) sont réalisées dans des conditions contrôlées avec des protocoles identiques de répartition des données, de prétraitement et d’évaluation. Les différences de performance observées sont spécifiques à l’ensemble de tests Kvasir-SEG (100 images) utilisé dans cette étude et peuvent ne pas se généraliser directement à d’autres ensembles de données ou contextes cliniques. Une comparaison plus large, intégrant des références supplémentaires établies (par exemple, PraNet36, ResUNet++37) sous des benchmarks standardisés multi-ensembles de données, renforcerait encore davantage les preuves et est prévue pour des travaux futurs. Des travaux récents sur les architectures encodeur-décodeur double pour la segmentation despolypes 38 ont démontré le potentiel des chemins d’encodage et de décodage parallèles. L’architecture PWD-Net se distingue par l’accent sur la modélisation géométrique rotationnelle et le filtrage à double attention au sein d’un pipeline encodeur-décodeur unique, représentant une philosophie de conception complémentaire.
Plusieurs limites importantes de cette étude doivent être reconnues. Tout d’abord, concernant la portée expérimentale, la présente étude rapporte exclusivement les résultats sur le jeu de données Kvasir-SEG avec une répartition aléatoire unique de 800 images d’entraînement, 100 de validation et 100 d’essais. La taille du jeu de test (100 images) est relativement petite, et une seule séance d’entraînement est rapportée sans expériences répétées ni validation croisée. Par conséquent, les indicateurs de performance rapportés peuvent être soumis à une variance liée à la répartition spécifique des données. Les travaux futurs devraient incorporer une validation croisée k-fold ou plusieurs divisions aléatoires avec les écarts-types rapportés afin de fournir des estimations de performance plus robustes. Deuxièmement, le PCM introduit une surcharge de calcul supplémentaire grâce à la rotation et l’agrégation multi-angles du noyau. Bien que le modèle global reste compact (9,1 millions de paramètres), le déploiement sur des dispositifs à ressources limitées en environnements cliniques peut nécessiter une optimisation supplémentaire par des techniques telles que la distillation des connaissances ou l’élagage des modèles. Troisièmement, le modèle est entraîné et évalué exclusivement sur des images statiques, tandis que la coloscopie clinique implique des flux vidéo en temps réel dans lesquels l’apparence, la taille et le point de vue des polypes changent dynamiquement sur des images consécutives. Bien que la vitesse d’inférence de 63 FPS soit compatible avec les fréquences d’images en temps réel, cette métrique seule ne constitue pas une validation clinique. Une validation prospective des données vidéo endoscopiques, des études de lecteurs et des analyses cliniques en aval des critères d’évaluation serait nécessaire avant que toute affirmation de préparation clinique puisseêtre formulée 39,40,41. Les travaux actuels doivent être compris comme une contribution méthodologique plutôt que comme un système validé cliniquement.
Quatrièmement, la voie de traduction clinique pour la segmentation des polypes assistée par IA dépasse largement la précision de segmentation. Des revues récentes ont souligné que les outils avancés d’imagerie et d’analyse doivent être intégrés dans des flux de travail endoluminaux plus larges, notamment la classification des lésions, la stadification et la planification du traitement. Le protocole actuel se concentre exclusivement sur la segmentation binaire des polypes et ne traite pas de la classificationpathologique 42 (par exemple, polypes adénomateux vs. hyperplasiques) ni de l’évaluation du risque de cancer, qui sont essentielles pour orienter les décisions cliniques. Cinquièmement, les ensembles de données utilisés dans cette étude sont principalement dérivés d’examens de coloscopie adulte. Les données sur les polypes pédiatriques, les polypes associés à la maladie inflammatoire de l’intestin et d’autres types pathologiques particuliers ne sont pas représentées. La généralisabilité du modèle à ces populations reste non testée. Sixièmement, bien que des expériences d’ablation et des visualisations qualitatives soient fournies pour illustrer la fonction de chaque module, l’interprétabilité du modèle reste limitée. Le processus décisionnel des modèles d’apprentissage profond n’est pas totalement transparent, ce qui peut affecter la confiance et l’adoption des cliniciens. Des travaux futurs pourraient intégrer des techniques de visualisation basées sur des gradients pour fournir des explications plus intuitives des prédictions du modèle43.
Malgré les limitations mentionnées ci-dessus, le protocole PWD-Net fournit un cadre reproductible pour la segmentation des polypes qui peut servir de base à un développement ultérieur. Les orientations potentielles incluent : étendre le modèle à une analyse de coloscopie vidéo en intégrant des techniques de modélisation temporelle ; ajout d’une branche de classification pour la segmentation de bout en bout et le typage pathologique ; étendre l’évaluation à des ensembles de données multicentriques plus vastes et plus diversifiés ; et exploration de l’intégration au sein des plateformes robotiques endoluminales, où l’analyse d’images assistée par IA est de plus en plus reconnue comme une technologie cléde l’habilitation 44,45. Le code complémentaire fourni avec ce protocole est destiné à faciliter la reproduction et l’adaptation de la méthode par d’autres groupes de recherche.
Les auteurs n’ont rien à divulguer.
Cette étude a été financée par le Programme national de recherche et développement clé de Chine (programmes n° 2022YFC3500200 et 2022YFC3500204).
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| Adam Optimiser | &mdash ; | &mdash ; | Inclus dans PyTorch |
| Albumentations | Équipe Albumentations | v1.0+ | Bibliothèque d’augmentation de données |
| Boîte à outils CUDA | NVIDIA | v11.3+ | Accélération GPU |
| Kvasir-SEG dataset | SimulaMet | &mdash ; | https://datasets.simula.no/kvasir-seg/ |
| Matplotlib | Communauté Matplotlib | v3.4+ | Visualisation des courbes d’entraînement |
| NumPy | Communauté NumPy | v1.21+ | Calcul numérique |
| NVIDIA Tesla P100 | NVIDIA | P100-PCIE-16GB | GPU pour l’entraînement et l’inférence |
| OpenCV | Communauté OpenCV | v4.5+ | Prétraitement d’image |
| Python | Fondation Python Software | v3.8+ | Langage de programmation |
| PyTorch | Meta Platforms | v1.12+ | Cadre d’apprentissage profond |
| Poids préentraînés ResNet-50 | PyTorch Model Zoo | &mdash ; | ImageNet-1K pré-entraîné |
| Ubuntu | Canonique | 18.04+ | Système d’exploitation |
Request permission to reuse the text or figures of this JoVE article
Request Permission