Rete di segmentazione polipia basata sulla convoluzione a spirale e doppia attenzione per la diagnosi di lesioni precancerose colorettali

Ning Du; Xinqi Liu; Li Ji; Chuijie Wang

doi:10.3791/71178

Method Article

Rete di segmentazione polipia basata sulla convoluzione a spirale e doppia attenzione per la diagnosi di lesioni precancerose colorettali

DOI:

10.3791/71178

⸱

June 26th, 2026

Ning Du*¹ , Xinqi Liu*¹ , Li Ji² , Chuijie Wang³

¹National Cancer Center/National Clinical Research Center for Cancer/Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, ²Xinglin College of Liaoning University of Traditional Chinese Medicine, ³Liaoning University of Traditional Chinese Medicine Affiliated Hospital

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo protocollo implementa una rete di deep learning a forma di U che integra convoluzione a spirale, doppia attenzione e fusione multi-scala per segmentare polipi colorettali.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Una segmentazione accurata dei polipi colorettali è fondamentale per la prevenzione precoce e la diagnosi del cancro colorettale. Tuttavia, a causa dell'elevata eterogeneità dei polipi in termini di forma, dimensione e consistenza, nonché della complessità dell'ambiente intestinale (come pieghe, riflessioni speculari e residui fecali), i metodi esistenti affrontano ancora sfide significative nella localizzazione dei confini e nel rilevamento di piccoli polipi. Per affrontare questi problemi, questo articolo propone una Rete di Segmentazione dei Polipi basata su Convoluzione a Ruota e Doppia Attenzione (PWD-Net). La rete proposta adotta un'architettura encoder–decoder a forma di U, in cui un ResNet pre-addestrato viene impiegato come codificatore per estrarre caratteristiche locali multilivello. In particolare, un Modulo di Convoluzione a Ruota (PCM) viene introdotto al livello di collo di bottiglia per catturare la struttura geometrica globale e le informazioni contestuali multidirezionali dei polipi attraverso nuclei di convoluzione ruotati a più angoli. Un Meccanismo di Doppia Attenzione (DAM) che integra l'attenzione del canale e l'attenzione spaziale è progettato per sopprimere in modo adattivo il rumore di fondo e migliorare le caratteristiche della regione dei polipi. Inoltre, viene impiegata una strategia Multi-scale Feature Fusion (MSF) per combinare informazioni semantiche profonde con dettagli di confine superficiali, garantendo sia completezza che precisione dei risultati di segmentazione. Esperimenti condotti sui dataset Kvasir-SEG e CVC-ClinicDB dimostrano che PWD-Net raggiunge coefficienti medi di DICE di 0,865 e 0,944, e punteggi IoU rispettivamente di 0,765 e 0,892, superando significativamente i metodi all'avanguardia esistenti. Gli studi di ablazione verificano l'efficacia di ogni modulo e le valutazioni cross-dataset confermano la forte capacità di generalizzazione del modello. Questo studio offre una soluzione ad alta precisione e robusta per la segmentazione clinica dei polipi, offrendo un valore significativo per la diagnosi precoce delle lesioni precancerose colorettali e supportando l'intervento assistito da computer.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Il cancro colorettale è uno dei tumori maligni più comuni nel mondo, con tassi costantemente elevati di incidenza e mortalità. Gli studi hanno dimostrato che la maggior parte dei tumori colorettali si sviluppa a partire dai polipi adenomatosi, un processo che tipicamente dura 10–15 anni, offrendo una preziosa finestra temporale per la diagnosi precoce e l'intervento. Un aumento dell'1% del tasso di rilevamento degli adenomi (ADR) può ridurre il rischio di cancro colorettale di circa il 3%, diminuendo significativamente la mortalità^{dei pazienti 1}. La colonscopia, considerata il punto di riferimento per lo screening del cancro colorettale, consente la rimozione diretta dei polipi durante l'esame, riducendo così efficacemente l'incidenza e la mortalità del cancro.

Tuttavia, la colonscopia convenzionale dipende molto dall'esperienza e dal livello di competenza degli endoscopisti. Fattori come il giudizio soggettivo, la stanchezza visiva e la distrazione possono portare a un tasso di mancato controllo del 20%–30%, che influisce direttamente sull'efficacia dello screening². Pertanto, sviluppare sistemi di rilevamento assistito da computer (CAD) per la segmentazione automatica dei polipi colorettali è di grande importanza per migliorare l'ADR e ridurre le diagnosi mancate. Recenti indagini cliniche hanno ulteriormente evidenziato l'interesse nell'integrazione dell'intelligenza artificiale nei flussi di lavoro di valutazione endoscopica delle lesioni, rafforzando la necessità di metodi di segmentazione robusti^{e riproducibili 3}.

Negli ultimi anni, il deep learning ha raggiunto notevoli progressi nell'analisi delle immagini mediche, in particolare nelle reti neurali convoluzionali (CNN), che dimostrano una forte capacità nell'estrazione e rappresentazione delle caratteristiche per compiti di segmentazione^{delle immagini 4}. Come modello classico di segmentazione delle immagini mediche, U-Net impiega un'architettura codificatore–decodifica simmetrica e salti connessioni per ottenere una segmentazione accurata a livello di pixel, diventando un punto di riferimento in questo^{campo 5}. Basandosi su U-Net, sono state proposte molte architetture migliorate per affrontare compiti complessi di segmentazione delle immagini mediche. UNet++ riduce il divario semantico tra le feature maps di encoder e decoder introducendo connessioni di skip annidate e^{dense 6}. ResUNet++ integra blocchi residui, moduli di compressione e eccitazione, convoluzioni dilatate e meccanismi di attenzione, ottenendo ottime prestazioni nella segmentazione dei^{polipi 7}. U^2-Net adotta una struttura a forma di U annidata a due livelli per catturare informazioni di caratteristiche^{multiscala 8}. Più recentemente, è stata proposta una rete di segmentazione profonda a doppio encoder e decodificatore, basata su doppio codifica e decodifica, che sfrutta percorsi paralleli di codifica e decodifica per migliorare ulteriormente la precisione della^{segmentazione 9}.

Nel frattempo, l'introduzione dei meccanismi di attenzione offre nuove soluzioni per il potenziamento delle caratteristiche e la soppressione del rumore. Attention U-Net utilizza porte di attenzione per concentrarsi sulle regioni target mentre sopprime informazioni di background irrilevanti¹⁰. La Dual Attention Network (DANet) pesa in modo adattivo le caratteristiche sia dal canale che dalle dimensioni^{spaziali 11}, migliorando la percezione delle caratteristiche critiche. Le Triple Attention Networks (TANet) migliorano ulteriormente le prestazioni di segmentazione attraverso la selezione adattiva di funzionalità^{multiscala 12}.

Con il successo delle architetture Transformer nell'elaborazione del linguaggio naturale e nella visione^{artificiale 13}, i ricercatori hanno iniziato a esplorarne l'applicazione nella segmentazione delle immagini mediche. TransUNet fu il primo a impiegare un Transformer come codificatore per modellare efficacemente dipendenze a lungo^{raggio 14}. Swin-UNet adotta un'architettura puramente Transformer e raggiunge un'aggregazione globale efficiente delle informazioni tramite un meccanismo a finestra^{spostata 15}. UTNet propone un'architettura ibrida che combina la capacità di estrazione delle caratteristiche locali delle CNN con la capacità di modellazione globale di Transformers¹⁶.

Nel campo della segmentazione dei polipi, Polyp-PVT utilizza un Transformer a visione piramidale per catturare informazioni semantiche globali^{su scala più 17}, mentre UNet annidato multiscala migliora la comprensione contestuale integrando Transformers¹⁸. Studi recenti hanno inoltre esplorato strategie di apprendimento per correlazione negativa per la segmentazione multi-dominio^{dei polipi 19}, il potenziamento della segmentazione aumentata con Gompertz²⁰ e architetture basate sull'attenzione che incorporano la guida dei^{confini 21}. Sebbene questi approcci migliorino in una certa misura le prestazioni della segmentazione, la segmentazione dei polipi affronta ancora diverse sfide. Innanzitutto, i polipi mostrano un'elevata eterogeneità nella morfologia, dimensione e texture, variando da micropolipi più piccoli di 5 mm a polipi grandi che superano i 30 mm, con forme che variano da circolari ed ellittiche a forme altamente irregolari. In secondo luogo, l'ambiente intestinale è complesso e variabile, dove le pieghe mucose, le riflessioni speculari, i residui fecali e i detriti alimentari introducono gravi interferenze di fondo. In terzo luogo, molti polipi hanno confini sfocati, possono essere parzialmente occlusi da pieghe o sommersi nei fluidi intestinali, rendendo la localizzazione precisa dei confini estremamente^{difficile 22}.

I metodi esistenti presentano ancora chiari limiti nell'affrontare queste sfide. Le CNN tradizionali sono efficaci nell'estrarre le caratteristiche locali di texture e bordi; tuttavia, i nuclei a convoluzione quadrata fissa non sono adatti a catturare forme geometriche diverse²³, specialmente per polipi altamente irregolari, e non possono modellare efficacemente caratteristiche geometriche multidirezionali. I metodi basati su trasformatori possono modellare dipendenze globali ma sono meno efficaci nel catturare dettagli locali fini e informazioni di confine. Inoltre, la loro elevata complessità computazionale li rende meno adatti ad applicazioni cliniche in tempo^{reale 24}. Approcci recenti di segmentazione dei polipi come PraNet, che utilizza moduli di attenzione inversa per affinare le regioni chiave²⁵, le reti di attenzione a cascata guidate dai confini che migliorano l'estrazione delle caratteristiche^{dei confini 26}, e CAFE-Net, che fonde le caratteristiche di encoder e decoder tramite meccanismi di attenzione^{incrociata 27}, incontrano ancora una rappresentazione delle caratteristiche insufficiente e una localizzazione dei confini imprecisa quando si lavora con piccoli^{polipi 28}, confini sfocati e sfondi complessi. Inoltre, la maggior parte dei metodi trascura la morfologia geometrica e non sfrutta appieno le informazioni contestuali multidirezionali, portando a una segmentazione subottimale dei polipi di forma irregolare.

In sintesi, i metodi attuali basati su CNN non sono in grado di catturare caratteristiche geometriche multidirezionali a causa della loro dipendenza da nuclei a convoluzione quadrata fissa. Gli approcci basati su trasformatori offrono modellazione globale ma sacrificano la precisione locale dei confini e impongono elevati costi computazionali. Nel frattempo, le strategie di fusione attuali a attenzione potenziata e multiscala non sono state ottimizzate congiuntamente all'interno di un quadro unificato specificamente pensato per la segmentazione^{dei polipi 29}. Queste lacune motivano lo sviluppo di un metodo che affronta contemporaneamente la modellazione geometrica delle caratteristiche, la soppressione adattiva del rumore e l'integrazione delle caratteristiche su scala trasversale.

Per affrontare questi problemi, questo protocollo presenta una Rete di Segmentazione di Polipi basata su Convoluzione a Ruota e Doppia Attenzione (PWD-Net). La rete proposta integra modellazione geometrica delle caratteristiche, miglioramento dell'attenzione multidimensionale e fusione di caratteristiche su più scala, consentendo una segmentazione precisa dei polipi complessi. I principali contributi di questo lavoro sono riassunti come segue: il modulo convoluzione a pinwheel (PCM), ispirato alla struttura di una pinwheel, è proposto un nuovo design di kernel a convoluzione ruotata che cattura caratteristiche geometriche multidirezionali dei polipi tramite operazioni di convoluzione a più angoli (0°, 45°, 90°, 135°, 180°, 225°, 270° e 315°). Questo modulo sostituisce lo strato di convoluzione convenzionale nella fase di collo di bottiglia, consentendo una percezione efficace delle diverse orientazioni dei bordi e migliorando significativamente la rappresentazione dei polipi dalla forma irregolare. Il meccanismo di doppia attenzione (DAM) affronta il rumore di fondo come pieghe, riflessioni e residui fecali nelle immagini della colonscopia. È progettato un modulo a doppia attenzione che integra l'attenzione canale e l'attenzione spaziale. Integrato all'interno delle connessioni di salto, questo modulo sopprime in modo adattivo le interferenze di fondo e migliora le risposte delle caratteristiche nelle regioni polipali, identificando congiuntamente "cosa" è importante (dimensione del canale) e "dove" si trova il bersaglio (dimensione spaziale), assicurando che solo le caratteristiche raffinate siano coinvolte nella fusione successiva. La strategia di fusione delle caratteristiche multiscala (MSF) preserva sia informazioni semantiche profonde sia dettagli di confine superficiali attraverso un meccanismo gerarchico introdotto nel decodificatore. Integrando progressivamente le caratteristiche degli encoder potenziati da DAM con le caratteristiche del decoder upcampionate, questa strategia compensa efficacemente la perdita di dettaglio spaziale causata dal downsampling, consentendo una rilevazione accurata di piccoli polipi e una delineazione precisa dei confini.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo studio utilizza solo dataset di immagini anonime per colonscopia pubblicamente disponibili (Kvasir-SEG). Non sono stati raccolti nuovi dati sui soggetti umani. Non erano richieste l'approvazione etica istituzionale e il consenso informato del paziente, come confermato dalle politiche di revisione istituzionale per analisi retrospettive di dataset pubblici deidentificati.

1. Preparazione dei dati

Scarica il dataset Kvasir-SEG dal repository ufficiale 33 (https://datasets.simula.no/kvasir-seg/). Il dataset contiene 1.000 immagini di polipi con corrispondenti maschere di verità a livello di pixel.
Dividere casualmente il dataset in set di addestramento (800 immagini), validazione (100 immagini) e test (100 immagini) con un rapporto di 8:1:1 usando un seed casuale fisso (seed = 42). Verifica che nessuna immagine si sovrapponi tra i tre sottoinsiemi per prevenire perdite di dati.
Ridimensionare tutte le immagini e le maschere corrispondenti a 352 x 352 pixel usando interpolazione bilineare per le immagini e interpolazione dei vicini più prossimi per le maschere.
Normalizzare i valori dei pixel a [0, 1] dividendo per 255, poi applicare la sottrazione media canale per canale di ImageNet (0,485, 0,456, 0,406) e la normalizzazione della deviazione standard (0,229, 0,224, 0,225).
Applicare le seguenti trasformazioni di aumento solo al set di addestramento (non ai set di validazione o di test): inversione orizzontale casuale (probabilità = 0,5); ribaltamento verticale casuale (probabilità = 0,5); rotazione casuale (distanza: −30° a +30°, probabilità = 0,5); ridimensionamento casuale multi-scala (fattore di scala: 0,75-1,25, probabilità = 0,5)
NOTA: Applicare trasformazioni spaziali identiche sia all'immagine che alla maschera corrispondente per mantenere l'allineamento. Verifica la correttezza dell'aumento ispezionando visivamente diverse coppie immagine-maschera aumentate prima di iniziare l'addestramento.

2. Architettura complessiva

NOTA: Consulta la Figura 1 per la backbone encoder–decoder a livello macro di PWD-Net, e la Figura 2 per l'integrazione e l'interazione dei moduli core all'interno del feature flow. L'architettura complessiva segue un design codificatore-decodificatore a forma di U per gestire variazioni di scala di polipi e interferenze di fondo nelle immagini di colonscopia.

Backbone e percorso di codifica (Figura 1)
1. Utilizza un ResNet-50 preaddestrato su ImageNet (proveniente dallo zoo ufficiale PyTorch) come encoder30 della backbone. Affina tutti gli strati degli encoder durante l'addestramento.
2. Fai passare l'immagine di colonscopia in input (ridimensionata a 352 x 352 pixel) attraverso cinque stadi di blocchi convoluzionali residui per estrarre le caratteristiche gerarchiche. La risoluzione spaziale delle mappe delle caratteristiche viene progressivamente ridimensionata da a tra le cinque fasi, mentre le dimensioni del canale aumentano corrispondentemente (64 → 128 → 256 → 512 → 1024).
3. Nel collo di bottiglia (il livello encoder più profondo), sostituire lo strato convoluzionale standard con il Pinwheel Convolution Module (PCM, descritto nella Sezione 3) per catturare la morfologia geometrica globale e le informazioni contestuali multidirezionali a bassa risoluzione.
  NOTA: I cinque stadi degli encoder corrispondono ai gruppi standard di layer ResNet-50: conv1, layer1, layer2, layer3 e layer4. I pesi pre-addestrati forniscono un'inizializzazione robusta delle caratteristiche di basso e medio livello, riducendo i tempi di convergenza su piccoli dataset medici.
Componenti chiave e interazione delle caratteristiche (Figura 2 e Figura 3)
1. Applicare il Dual-Attention Mechanism (DAM, descritto nella Sezione 4) all'uscita di ogni stadio encoder prima di trasmetterlo al decoder tramite connessioni di salto. Questo passaggio sopprime adattivamente il rumore di fondo generato dalle plice intestinali e dalle riflessioni speculari, mentre aumenta la risposta delle caratteristiche nelle regioni dei polipi. Solo le caratteristiche filtrate vengono passate al corrispondente strato decodificatore.
2. Nel decodificatore, si ripristina progressivamente la risoluzione spaziale tramite un campionamento bilineare. Ad ogni livello decodificatore, concatenare le caratteristiche upcampionate dallo stadio precedente con le caratteristiche encoder potenziate DAM della stessa risoluzione spaziale.
3. Applicare due strati convoluzionali consecutivi (ciascuno seguito da normalizzazione batch e attivazione ReLU) per fondere le informazioni multi-scala. Questo costituisce la strategia Multi-scale Feature Fusion (MSF) descritta nella Sezione 5.
  NOTA: Il decodificatore procede dagli strati profondi a quelli superficiali (stadio 5 → stadio 1), assicurando che le informazioni di localizzazione semantica profonda e le informazioni di dettaglio dei confini superficiali siano efficacemente integrate a ciascun livello.
Generazione di output
1. Applicare uno strato convoluzionale seguito da una funzione di attivazione Sigmoid all'output finale del decodificatore per generare la maschera di predizione.
2. Binarizzare la maschera di previsione usando una soglia di 0,5 per ottenere il risultato finale di segmentazione, dove i pixel con probabilità prevista ≥ 0,5 vengono classificati come polipi e gli altri pixel come sfondo.

3. Modulo di convoluzione a ruota a spirale (Figura 3)

Il Modulo di Convoluzione a Ruota (PCM) sostituisce la convoluzione standard del collo di bottiglia per catturare le caratteristiche geometriche multidirezionali dei polipi. Implementa questo modulo come segue:
1. Definisci un nucleo di convoluzione di base W di dimensione 3 x 3 con C_nei canali di ingresso e C_{in uscita} nei canali di uscita.
2. Definisci l'insieme degli angoli di rotazione Θ = {0°, 45°, 90°, ..., 315°}. Per ogni angolo θ ∈ Θ, generare il nucleo ruotato W_θ applicando una rotazione bilineare basata sull'interpolazione a W. Tutti e otto i nuclei ruotati condividono gli stessi parametri base; solo la disposizione spaziale dei pesi differisce.
3. Per ogni angolo θ, calcola la mappa di caratteristiche specifiche per direzione:
  
  dove X è la mappa delle caratteristiche di input.
4. Aggregare le otto caratteristiche direzionali tramite concatenazione canale lungo l'asse del canale, ottenendo un tensore di dimensione (8 x_{C in uscita}) x H x W. Poi applica una convoluzione 1 x 1 per ridurre la dimensione del canale a C_out, seguita da normalizzazione batch e attivazione^{ReLU 31}:
  
  NOTA: La rotazione e l'interpolazione vengono eseguite sui pesi del kernel, non sulla mappa delle caratteristiche di input. Questo design consente l'estrazione delle caratteristiche multidirezionale efficiente dal punto di vista dei parametri senza aumentare la risoluzione di input. Nell'implementazione attuale, C_in = 1024 e C_out = 1024 nella fase di collo di bottiglia, corrispondendo alla dimensione del canale di uscita dello strato4 di ResNet-50. Consulta il pacchetto di codice supplementare per l'implementazione completa.

4. Meccanismo di doppia attenzione (Figura 4)

NOTA: Il Dual-Attention Mechanism (DAM) è incorporato in ogni connessione skip per sopprimere il rumore di fondo e migliorare le caratteristiche della regione dei polipi sia dal canale che da quello spaziale.

Attenzione al canale
Il ramo di attenzione dei canali identifica quali canali feature sono i più informativi. Data una caratteristica di input F ∈ R^C×H×W:
1. Comprimere le dimensioni spaziali tramite Global Average Pooling per ottenere un descrittore di canale z ∈ R^C×1×1.
2. Passare z attraverso un MLP (strati completamente connessi) a due strati con un rapporto di riduzione r = 16. Il primo strato riduce la dimensione da C a C/16 con l'attivazione ReLU; il secondo strato lo riporta da C/16 a C con attivazione sigmoide per produrre il vettore di peso del canale A_c:
  
  dove δ indica ReLU e σ indica Sigmoide.
Attenzione spaziale
Il ramo di attenzione spaziale localizza dove si trovano le regioni target:
1. Applica sia il pool massimo che il pooling medio lungo la dimensione del canale per generare due mappe di caratteristiche 2D di dimensione 1 x H x W.
2. Concatena le due mappe lungo l'asse del canale per formare un tensor 2 x H x W. Applicare uno strato convoluzionale 7 x 7 seguito da un'attivazione sigmoidea per produrre la mappa di peso spaziale A_s ∈ R^1×H×W:
Fusione di Feature
1. Fonde le uscite di canale e attenzione spaziale con la caratteristica di input tramite moltiplicazione elemento:
  
  dove α e β sono coefficienti di bilanciamento imparabili, entrambi inizializzati a 0,5 e aggiornati congiuntamente con i parametri di rete tramite ottimizzazione basata su gradiente durante l'addestramento.
  NOTA: Consulta il pacchetto di codice supplementare (dam_module.py) per l'implementazione completa.

5. Fusione di caratteristiche multi-scala

Applicare la strategia multi-scale feature fusion (MSF) nel decoder per affrontare la perdita di dettaglio spaziale nelle feature profonde. Ad ogni fase del decodificatore, esegui quanto segue:
Sovracampiona la feature map dello stadio decodificatore precedente di un fattore 2 usando interpolazione bilineare.
Concatenare le caratteristiche upcampionate con le caratteristiche encoder potenziate da DAM della corrispondente risoluzione spaziale lungo l'asse del canale.
Applicare due strati convoluzionali consecutivi 3 x 3 (ciascuno seguito da normalizzazione batch e attivazione^{ReLU 32}) per fondere le caratteristiche concatenate.
NOTA: Questa fusione cross-level garantisce che i dettagli di confine dei polipi (forniti dalle caratteristiche dell'encoder superficiale) e la localizzazione semantica (fornita dalle caratteristiche profonde) siano preservati simultaneamente, generando risultati di segmentazione a grana fine.

6. Funzione di perdita e configurazione di addestramento

Funzione di perdita
1. Viene adottata una funzione di perdita ibrida L_total per ottimizzare congiuntamente la rete, affrontando il diffuso squilibrio tra classe in primo piano e sfondo nella segmentazione dei polipi.
  La Perdita Binaria di Entropia Incrociata (L_BCE) misura l'accuratezza della classificazione a livello di pixel:
  
  dove N è il numero totale di pixel, y_i ∈ {0,1} è l'etichetta di verità fondamentale, e ŷ_i ∈ [0,1] è la probabilità prevista.
2. La perdita dei dadi (L_Dice) quantifica la somiglianza tra le regioni previste e quelle di realtà:
  
  dove ε è un fattore di levigatura (impostato a 1 x 10⁻⁵) per evitare la divisione per zero.
  Fissare λ = 0,5 per bilanciare i contributi dei due termini di perdita.
Configurazione di addestramento
1. Inizializzare l'encoder con pesi ResNet-50 pre-addestrati da ImageNet. Inizializzare tutti i livelli decodificatori, PCM e parametri DAM utilizzando l'inizializzazione uniforme di Kaiming.
2. Configura l'ottimizzatore e il programma di addestramento come segue. Usa l'ottimizzatore Adam con β₁ = 0,9 e β₂ = 0,999. Imposta la velocità di apprendimento iniziale a 1 x 10⁻⁴. Applicare un programma di apprendimento per ricottura coseno con T_max = 50 e η_min = 1 x 10⁻⁶. Usa un lotto di 16 e addestra il modello per 50 epoche.
3. Addestra il modello per 50 epoche sul set di addestramento (800 immagini). Alla fine di ogni epoca, si valuta il modello sul set di validazione (100 immagini) utilizzando il coefficiente di Dice come metrica principale di monitoraggio.
4. Salva il checkpoint del modello che raggiunge il coefficiente di Dado più alto nel set di validazione. Usa questo checkpoint come modello finale per tutte le valutazioni successive sul set di test.
  NOTA: La fermata anticipata non è esplicitamente applicata. La strategia di selezione dei checkpoint di Dado con la migliore validazione dei dadi funge da criterio di selezione del modello. Tutti gli esperimenti vengono condotti utilizzando l'ambiente hardware e software specificato nella Tabella dei Materiali. L'addestramento per 50 epoche su 800 immagini richiede circa 2 ore secondo la configurazione descritta. Tutti i risultati riportati sono ottenuti da una singola prova di addestramento utilizzando il seme casuale specificato (seme = 42). Consulta il pacchetto di codice supplementare per lo script completo di addestramento.

7. Pseudocodice

Usa l'Algoritmo 1 come mappa completa del flusso di lavoro per PWD Net. Abbina i blocchi PCM, DAM, architettura principale e pipeline di addestramento nell'algoritmo con i file corrispondenti nel pacchetto di codice supplementare.
Implementa il blocco PCM mostrato nelle righe 4-12. Definire un nucleo di convoluzione in base 3 x 3 e generare otto nuclei ruotati a 0°, 45°, 90°, 135°, 180°, 225°, 270° e 315° usando interpolazione bilineare.
Mantieni gli stessi parametri base apprendibili per tutti i kernel PCM ruotati. Per ogni angolo di rotazione, calcola una mappa di caratteristiche specifiche in una direzione.
Concatena le otto mappe di caratteristiche PCM lungo la dimensione del canale. Applica una convoluzione 1 x 1, una normalizzazione batch e un'attivazione ReLU per ripristinare la dimensione originale del canale.
Implementa il blocco DAM mostrato nelle righe 14-19. Applicare il Global Average Pooling per generare il descriptor del canale, poi passarlo attraverso un MLP a due strati con un rapporto di riduzione di 16 per ottenere i pesi dei canali.
Genera la mappa di attenzione spaziale applicando il pool medio per canale e il pool massimo alla funzione di input. Concatena le due mappe ed elaborale con una convoluzione 7 x 7 seguita dall'attivazione Sigmoid.
Fonde il canale DAM e le uscite di attenzione spaziale con la funzione di input usando la moltiplicazione elemento per elemento. Pesa le due mappe di attenzione con coefficienti apprendibili α e β, entrambe inizializzate a 0,5.
Costruisci l'architettura principale PWD Net mostrata nelle righe 21-32. Passare l'immagine in ingresso attraverso cinque stadi di un codificatore ResNet 50 pre-addestrato per ottenere da e1 a e5, con la risoluzione spaziale che diminuisce da H x W a H/32 x W/32.
Applica PCM a e5 nel collo di bottiglia. Applica DAM a e1 a e4 prima di inviare queste funzionalità al decoder tramite le connessioni di salto.
Decodifica la feature map da strati profondi a superficiali. Ad ogni livello del decoder, si può fare upsampling della caratteristica precedente, concatenarla con la corrispondente funzione encoder potenziata DAM e applicare DoubleConv per la fusione delle funzionalità.
Genera l'output di segmentazione con una convoluzione 1 x 1 seguita dall'attivazione Sigmoid. Usa la mappa di probabilità pixel per pixel risultante come maschera prevista.
Implementa il ciclo di addestramento mostrato nelle righe 34-39. In ogni epoca, eseguire la propagazione in avanti attraverso PWD Net e calcolare la maschera prevista.
Calcola la perdita di addestramento come 0,5 x perdita BCE più 0,5 x perdita di dadi. Aggiorna tutti i parametri apprendibili con l'ottimizzatore Adam tramite la retropropagazione.

Algoritmo 1: Segmentazione PWD-Net dei polipi
1: Input: Immagine della colonscopia I ∈^{R H×W×3}
2: Output: Maschera di segmentazione M ∈ {0,1}^(H×W)
3:
4: funzione PCM(X) ▷ Modulo di Convoluzione a Ruota
5: Definiamo nucleo base W (3 x 3), angoli Θ = {0°, 45°, ..., 315°}
6: per ogni θ ∈ Θ do
7: W_θ ← BilinearRotate(W, θ) ▷ Rotate kernel
8: Y_θ ← Conv2d(X, W_θ) ▷ Caratteristiche specifiche per la direzione
9: fine per
10: Y_out ← ReLU(BN(Conv1 x 1(Concat({_{Y θ}})))) ▷ Aggregate
11: riporta Y_fuori
12: funzione finale
13:
14: funzione DAM(F) ▷ Meccanismo di doppia attenzione
15: A_c ← Sigmoid(MLP(AvgPool(F))) ▷ Attenzione canale (r=16)
16: A_s ← Sigmoid(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Attenzione spaziale
17: F' ← F ⊗ (α · A_c + β · A_s) ▷ Fusi con α imparabile, β (init=0.5)
18: ritorno F'
19: fine della funzione
20:
21: funzione PWD-Net(I)
22: Codificatore: e₁,_{e 2},_{e 3},_{e 4},_{e 5} ← ResNet50_Stages(I) ▷ Codificatore preaddestrato a 5 stadi
23: Collo di bottiglia: b ← PCM(e₅) ▷ Applicare PCM al collo di bottiglia
24: Saltare le connessioni: s_i ← DAM(_{e i}) per i = 1, 2, 3, 4 ▷ Caratteristiche dell'encoder del filtro
25: Decodificatore:
26: _{d 4} ← DoubleConv(Concat(Up(b), s₄))
27: _{d 3} ← DoubleConv(Concat(Up(_{d 4}),_{s 3}))
28: _{d 2} ← DoubleConv(Concat(Up(d₃), s₂))
29: _{d 1} ← DoubleConv(Concat(Up(d₂), s₁))
30: M ← Sigmoid (Conv1 x 1(d₁))
31: ritorno M
32: funzione finale
33:
34: Allenamento:
35: per ogni epoca fai
36: M̂ ← PWD-Net(I)
37: L ← 0,5 · A.C.(M̂, M_GT) + 0,5 · DadoLoss(M̂,_{M gt}) ▷ λ = 0,5

38: Aggiornare i parametri tramite retropropagazione (Adam ottimizzar)
39: fine per

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Configurazione sperimentale
Dataset

Il dataset Kvasir SEG è stato utilizzato per valutare il comportamento di segmentazione di PWD Net su immagini di colonscopia con aspetto eterogeneo di polipi. Il dataset contiene immagini di polipi annotate in pixel da 1.000 e include variazioni nella dimensione, forma, texture, illuminazione e complessità dello sfondo, rendendolo adatto per valutare il rilevamento di piccoli bersagli, la localizzazione dei confini e la robustezza alle interferenze visive. Il dataset era suddiviso in sottoinsiemi di addestramento, validazione e test, e il set finale di test veniva utilizzato solo per la valutazione delle prestazioni. La distribuzione delle immagini è riassunta nella Tabella 1.

Dettagli di implementazione

Le impostazioni di implementazione richieste per la riproducibilità sono riassunte nella Tabella 2, e i dettagli procedurali completi sono forniti nei passaggi di Preparazione dei Dati e nella Sezione 5.2 del Protocollo. Per interpretare i risultati, tutti gli esperimenti riportati utilizzavano la stessa risoluzione di input, ambiente hardware e condizioni di valutazione elencate nella Tabella dei Materiali. I valori riportati si basano sul checkpoint di validazione Dice selezionato da una singola esecuzione usando seed = 42, quindi i risultati dovrebbero essere interpretati come prestazioni sotto una suddivisione sperimentale fissa piuttosto che come risultati medi di validazione incrociata.

Metriche di valutazione

Le prestazioni di segmentazione sono state valutate utilizzando il coefficiente di Dice, l'intersezione su Unione, l'accuratezza a livello di pixel e la velocità di inferenza. Il coefficiente di dadi e l'intersezione su unione sono stati utilizzati come principali metriche basate sulla sovrapposizione perché riflettono direttamente l'accordo tra la maschera prevista e la regione dei polipi annotati da esperti. L'accuratezza a livello di pixel è stata riportata come misura supplementare perché le immagini di colonscopia spesso contengono ampie aree di sfondo. La velocità di inferenza, riportata in frame per secondo, è stata inclusa per valutare se il modello mantiene l'efficienza computazionale pratica migliorando la qualità della segmentazione.

Confronto con i metodi esistenti
Per dimostrare il comportamento e l'efficacia di PWD-Net, viene effettuato un confronto con cinque metodi rappresentativi di segmentazione dei polipi: CBSA (Channel-Boosted Spatial Attention ^network)34, FSSA (Feature-Shared Spatial Attention network), MSF (Multi-Scale Fusion network), Pinwheel-Conv (Pinwheel Convolution baseline senza attenzione o moduli di fusione) e PolaLinear (Polarized Linear Attention network). Tutti i metodi di confronto vengono reimplementati utilizzando i loro codici sorgente ufficialmente rilasciati e addestrati sullo stesso set di addestramento Kvasir-SEG (800 immagini) con pre-elaborazione, risoluzione di input (352 x 352) e impostazioni di valutazione identiche per garantire un confronto equo. La Tabella 3 presenta i risultati quantitativi sul set di test.

Come mostrato nella Tabella 3, PWD-Net raggiunge un coefficiente di Dice di 0,865 e un IoU di 0,765, rappresentando miglioramenti dell'1,8% in Dice e del 4,8% in IoU rispetto al metodo successivo migliore (CBSA). In particolare, PWD-Net raggiunge questo obiettivo con parametri di 9,1M, rispetto ai 18,4M del CBSA, indicando un'efficienza favorevole. Sebbene PolaLinear e Pinwheel-Conv offrano velocità di inferenza più elevate (rispettivamente 79 e 72 FPS), la loro accuratezza di segmentazione è visibilmente inferiore, suggerendo che PWD-Net offre un equilibrio ragionevole tra accuratezza e costo computazionale per il dataset valutato. Per illustrare il comportamento qualitativo della segmentazione, sono stati selezionati cinque campioni rappresentativi di test che coprono piccoli polipi, polipi grandi, sfondi complessi e confini sfocati per il confronto visivo. La Figura 5 presenta i risultati di segmentazione di quattro metodi di comparazione selezionati (CBSA, FSSA, MSF e PWD-Net) insieme alla verità sul campo. Ogni colonna di previsione è etichettata con il corrispondente nome del metodo. Pinwheel-Conv e PolaLinear sono omessi da questa figura per chiarezza visiva, poiché le loro prestazioni quantitative sono sostanzialmente inferiori; questa figura rappresenta quindi un sottoinsieme selezionato dei metodi confrontati nella Tabella 3.

Come mostrato nella Figura 5, in scenari a piccoli polipi (prima e quinta riga), FSSA e MSF mostrano rilevamenti mancati, mentre PWD-Net cattura i bersagli in modo più completo. Negli scenari con grandi polipi (seconda e terza riga), CBSA e FSSA producono irregolarità evidenti nei confini, mentre PWD-Net genera confini più lisci. Nello scenario del confine sfocato (quarta fila), PWD-Net dimostra una soppressione efficace del rumore di fondo tramite il meccanismo di doppia attenzione.

Studio sull'ablazione
Per analizzare il contributo di ciascun componente core in PWD-Net, viene condotto uno studio sistematico di ablazione. Utilizzando ResNet-50 come codificatore backbone per formare il modello base, il Modulo Convoluzione Pinwheel (Pinwheel), il Dual-Attention Mechanism (Dual-Attn) e il modulo Multi-Scale Feature Fusion (MSF) sono incorporati in modo incrementale. La Tabella 4 riassume i risultati quantitativi.

I principali risultati della Tabella 4 possono essere riassunti come segue. Innanzitutto, aggiungere un singolo modulo migliora le prestazioni del modello baseline. Il Meccanismo di Doppia Attenzione porta i guadagni più significativi (Dadi: +2,0%, IoU: +2,7%), supportando l'efficacia della soppressione adattiva del rumore. Il Modulo Convoluzione a Roda contribuisce con un miglioramento dell'1,6% nei dadi, indicando il vantaggio dell'estrazione di caratteristiche multidirezionale per forme irregolari di polipi. In secondo luogo, combinando la Convoluzione a Ruota e il Meccanismo di Doppia Attenzione aumenta ulteriormente le prestazioni a Dado = 0,858 e IoU = 0,748, suggerendo la complementarità tra i due moduli. Infine, l'intero PWD-Net (che integra tutti e tre i moduli) raggiunge la migliore performance osservata (Dice = 0,865, IoU = 0,765), con miglioramenti rispettivamente del 3,3% e del 6,0%, rispetto alla linea di base, dimostrando il contributo di ciascun componente proposto in questo dataset.

Analisi del processo di formazione
Per illustrare la dinamica di addestramento e le caratteristiche di convergenza di PWD-Net, le principali metriche di performance vengono registrate e visualizzate in 50 epoche di addestramento. La Figura 6 mostra le variazioni della funzione di perdita, del coefficiente dei dadi, dell'IoU e della precisione durante l'addestramento.

Come mostrato nella Figura 6(a), sia la perdita di addestramento che quella di validazione diminuiscono rapidamente nelle prime 10 epoche e poi si stabilizzano gradualmente. La perdita di validazione rimane leggermente superiore a quella di addestramento per tutta la durata, ma le due curve seguono una tendenza costante con un piccolo divario, indicando che il modello non soffre di un grave overfitting. La Figura 6(b) mostra che il coefficiente di Dice aumenta bruscamente nella fase iniziale di addestramento, converge dopo circa la 30ª epoca e si stabilizza sopra 0,86. La curva IoU nella Figura 6(c) mostra una tendenza di crescita simile, raggiungendo circa 0,765 nella fase finale di allenamento. La Figura 6(d) indica che l'accuratezza supera il 94%. Le tendenze stabili di validazione nelle fasi di addestramento intermedie e avanzate suggeriscono che la strategia adottata di aumento dei dati e il programma di annealing coseno contribuiscono a mitigare l'overfitting su questo dataset.

Prestazioni tra le dimensioni dei polipi
Per valutare ulteriormente l'applicabilità di PWD-Net in diversi scenari clinici, il set di test (100 immagini) è suddiviso in tre categorie in base al rapporto tra area polipa e area totale dell'immagine: polipi piccoli (< 5%), polipi medi (5%–30%) e polipi grandi (> 30%). Questa classificazione riflette l'influenza della scala dei polipi sulla difficoltà di segmentazione. La Tabella 5 presenta le prestazioni quantitative in ciascuna categoria. Come mostrato nella Tabella 5, PWD-Net ottiene le migliori prestazioni nella categoria dei polipi medi (Dadi = 0,882, IoU = 0,790), il che è coerente con la rappresentazione più ampia di questa categoria (54 immagini di test su 100). Le prestazioni sui polipi grandi rimangono a un livello comparabile (Dadi = 0,861, IoU = 0,760). Le prestazioni su piccoli polipi sono relativamente inferiori (Dadi = 0,812, IoU = 0,685), principalmente perché i piccoli bersagli occupano una piccola parte dell'immagine e sono più suscettibili al rumore di fondo con informazioni di confine più scarse.

Questi risultati suggeriscono che la capacità di cattura delle caratteristiche multidirezionali del Modulo di Convoluzione Pinwheel e la capacità di localizzazione spaziale del Dual-Attention Mechanism contribuiscono a mantenere una qualità di segmentazione ragionevole tra diverse scale di polipi nel set di test valutato.

figure-results-1
Figura 1: Struttura del modello PWD-Net. Struttura complessiva della proposta Polyp Segmentation Network basata su Pinwheel Convolution and Dual Attention (PWD-Net), illustrando l'encoder (ResNet-50), il collo di bottiglia (PCM), le connessioni di salto potenziate da DAM, il decodificatore MSF e la generazione di output per la segmentazione dei polipi colorettali. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-2
Figura 2: Diagramma di flusso complessivo dell'architettura di PWD-Net. Diagramma di flusso dettagliato dell'intera architettura PWD-Net, mostrando l'encoder ResNet-50 a cinque stadi, il collo di bottiglia PCM, le connessioni DAM skip, il decodificatore di fusione di feature multi-scale e la generazione finale di previsione. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-3
Figura 3: Diagramma schematico del modulo di convoluzione a spirale. Schema strutturale e operativo del Modulo Convoluzione a Ruota, che dimostra nuclei di convoluzione ruotati a più angoli, rotazione basata su interpolazione bilineare, concatenazione di canali e aggregazione di convoluzioni 1 x 1. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-4
Figura 4: Diagramma strutturale del meccanismo della doppia attenzione. Diagramma architettonico del DAM, che mostra il ramo parallelo di attenzione del canale (Global Average Pooling → MLP con rapporto di riduzione r = 16 → Sigmoid) e il ramo di attenzione spaziale (pooling canale per canale → convoluzione 7 x 7 → Sigmoid), seguiti da fusione ponderata con coefficienti apprendibili α e β. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-5
Figura 5: Confronto qualitativo dei risultati della segmentazione. Ogni riga rappresenta un campione di prova. Colonne da sinistra a destra: Immagine di input, Ground Truth, CBSA, FSSA, MSF e PWD-Net (Nostro). Pinwheel-Conv e PolaLinear sono omessi da questa figura per chiarezza visiva; vedi la Tabella 3 per il confronto quantitativo completo. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-6
Figura 6: Curve di addestramento di PWD-Net in 50 epoche. (a) Perdita di addestramento e validazione. (b) Coefficiente di dadi. (c) Intersezione sopra Union (IoU). (d) Accuratezza a livello di pixel. Clicca qui per visualizzare una versione più grande di questa figura.

Sottoinsieme di addestramento	Numero di campioni	Proporzioni
Treno	800	80%
Set di validazione	100	10%
Set di prova	100	10%
Set totale	1000	100%

Tabella 1: Statistiche del dataset. Distribuzione suddivisa del dataset per il dataset Kvasir-SEG (1.000 immagini totali), che mostra il numero di immagini e la proporzione assegnate ai sottoinsiemi di addestramento, validazione e test (seed casuale = 42).

Categoria	Elemento Parametro	Impostazione dei parametri
Quadro di Deep Learning	Quadro	PyTorch
Ambiente hardware	GPU	NVIDIA Tesla P100
Metodo di accelerazione	Accelerazione GPU	CUDA
Impostazioni di input	Dimensione dell'immagine di input	352 × 352
Formato immagine	Formato immagine	Immagine RGB
Ottimizzatore	Ottimizzatore	Adam
Tasso di apprendimento iniziale	LR iniziale	1 × 10⁻⁴
Dimensione del lotto	Dimensione del lotto	16
Epoche di addestramento	Epoche	50
Funzione di perdita	Funzione di perdita	Perdita dei dadi + BCE

Tabella 2: Impostazioni dei parametri sperimentali. Impostazioni sperimentali dei parametri per l'addestramento e la valutazione PWD-Net. Consulta i passaggi di preparazione dei dati e la Sezione 5.2 del Protocollo per la procedura completa di implementazione passo dopo passo.

Metodo	Dadi ↑	IoU ↑	Accuratezza ↑	Parametri (M) ↓	FPS ↑
CBSA	0.8466	0.717	0.9325	18.4	36
FSSA	0.7109	0.551	0.9012	9.8	61
MSF	0.7337	0.585	0.9086	11.5	54
Pinwheel-Conv	0.8007	0.6742	0.9401	7.9	72
PolaLinear	0.7213	0.5707	0.9113	6.6	79
PWD-Net (Nostro)	0.865	0.7651	0.9478	9.1	63

Tabella 3: Risultati di confronto quantitativo. Confronto quantitativo di PWD-Net con cinque metodi esistenti di segmentazione dei polipi sul set di test Kvasir-SEG (100 immagini). Tutti i metodi vengono valutati con suddivisioni dei dati, preprocessing e risoluzione degli input identiche (352 x 352). ↑ indica che più alto è meglio; ↓ indica che più basso è meglio. I metodi contrassegnati con * indicano i risultati citati dalla pubblicazione originale invece che reimplementati.

Configurazione	Ruota a spillo	Dual-Attn	MSF	Dadi ↑	IoU ↑
Base	×	×	×	0.832	0.705
+ Ruota a spillo	√	×	×	0.848	0.725
+ Dual-Attn	×	√	×	0.852	0.732
+ MSF	×	×	√	0.844	0.72
+ Ruota a spillo + Doppia Attenzione	√	√	×	0.858	0.748
Pieno (PWD-Net)	√	√	√	0.865	0.765

Tabella 4: Risultati dello studio di ablazione. I risultati dello studio di ablazione sul set di test Kvasir-SEG, che mostrano il contributo incrementale del Modulo di Convoluzione Pinwheel (Pinwheel), del Dual-Attention Mechanism (Dual-Attn) e della Multi-Scale Feature Fusion (MSF) all'encoder base ResNet-50.

Tipo di polipo	Numero	Dadi ↑	IoU ↑
Polipi piccoli (< 5%)	21	0.812	0.685
Polipi medi (5%–30%)	54	0.882	0.79
Polipi grandi (> 30%)	25	0.861	0.76

Tabella 5: Prestazioni di PWD-Net su diversi tipi di polipi. Prestazioni di PWD-Net su diverse categorie di dimensioni di polipi all'interno del set di test Kvasir-SEG (100 immagini). La dimensione del polipo è definita dal rapporto tra l'area del polipo e l'area totale dell'immagine.

File supplementare: Archivio compresso contenente l'implementazione del framework PWD-Net. Il file include model.py definire l'architettura di rete con il Pinwheel Convolution Module (PCM) e il Dual-Attention Mechanism (DAM), train.py implementare la pipeline di carico dati, la funzione di perdita e la procedura di addestramento, test.py per l'inferenza e valutazione del modello sui dataset di test, e requirements.txt elencare tutte le librerie Python richieste e le relative versioni. Clicca qui per scaricare questo file.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diverse scelte di progettazione nel protocollo PWD-Net sono fondamentali per ottenere risultati di segmentazione affidabili e meritano un'attenta attenzione durante l'implementazione. Innanzitutto, la selezione e l'inizializzazione della backbone dell'encoder influenzano direttamente il comportamento di convergenza e le prestazioni finali. Il protocollo impiega un codificatore ResNet-50 pre-addestrato su ImageNet, che fornisce un'inizializzazione robusta delle funzionalità di basso e medio livello. Questo è particolarmente importante per compiti di segmentazione delle immagini mediche, dove i dati di addestramento disponibili sono limitati (800 immagini nel presente studio). La fine-tuning di tutti gli strati degli encoder, invece di congelarli, permette alla rete di adattare le caratteristiche pre-addestrate alle caratteristiche specifiche delle immagini di colonscopia, come texture mucose e riflessioni speculari. In secondo luogo, la collocazione di ogni modulo core all'interno dell'architettura è intenzionale. Il Modulo di Convoluzione a Ruota (PCM) è posizionato nel collo di bottiglia, dove la risoluzione spaziale è più bassa ma l'informazione semantica è più ricca, consentendo la cattura efficiente di pattern geometrici globali senza costi computazionali eccessivanti. Il Dual-Attention Mechanism (DAM) è incorporato nelle connessioni di salto piuttosto che nel decodificatore, assicurando che il rumore di fondo venga soppresso prima che le caratteristiche vengano trasmesse al decodificatore, impedendo così alle caratteristiche contaminate di propagarsi attraverso le fasi di fusione. Lo studio sull'ablazione (Tabella 4) supporta questo progetto: il DAM contribuisce con il maggior aumento di prestazioni individuale (Dadi: +2,0%), confermando l'importanza della soppressione precoce del rumore nella pipeline di funzionalità. Terzo, la funzione di perdita ibrida (0,5 · A.C. + 0,5 · Dice) bilancia l'accuratezza della classificazione a livello di pixel con l'ottimizzazione della sovrapposizione a livello regionale. Questa combinazione è particolarmente rilevante per la segmentazione dei polipi, dove lo squilibrio di classe in primo piano e sfondo è comune. La pesatura uguale (λ = 0,5) viene adottata come impostazione predefinita; può essere necessario aggiustare questo rapporto per dataset con diverse distribuzioni di classe (vedi Troubleshooting sotto).

Modifiche e risoluzione dei problemi
Le seguenti modifiche e linee guida per la risoluzione dei problemi sono fornite per adattare il protocollo a diversi contesti sperimentali. Quando si applica il protocollo a dataset con diverse risoluzioni di immagine o distribuzioni di dimensione dei polipi, la risoluzione degli input (352 x 352) può necessitare di aggiustamenti. Dimensioni di ingresso maggiori possono migliorare la rilevazione dei piccoli polipi a scapito di un maggiore consumo di memoria e una riduzione della velocità di inferenza. Se la perdita di allenamento non converge entro 50 epoche, si considera di ridurre la velocità di apprendimento iniziale (ad esempio, a 5 x 10⁻⁵) o aumentare la lunghezza del ciclo di ricottura coseno. Se il modello mostra alti tassi di falsi positivi in regioni con riflessioni speculari severe o pieghe mucosate, aumentare il peso della componente di perdita di Dado (ad esempio, λ = 0,4 per BCE, 0,6 per Dado) può migliorare la precisione dei confini a scapito della precisione a livello di pixel. Al contrario, se il modello sottosegmenta piccoli polipi, aumentare il peso BCE può aiutare. Il numero di angoli di rotazione nel PCM (attualmente otto, da 0° a 315° in incrementi di 45°) rappresenta un equilibrio tra copertura direzionale e costo computazionale. Ridurre a quattro angoli (0°, 90°, 180°, 270°) diminuisce il calcolo ma può ridurre la sensibilità ai confini obliqui dei polipi. Il rapporto di riduzione r = 16 nel ramo di attenzione del canale del DAM segue la convenzione stabilita dalle precedenti reti di compressione e^{eccitazione 32}; Rapporti più piccoli (ad esempio, r = 8) aumentano la capacità del modello ma possono portare a un sovrafitting su dataset piccoli. Per dataset significativamente più grandi di Kvasir-SEG, si considera di aumentare la dimensione del lotto e le epoche di addestramento di conseguenza, e monitorare le metriche di validazione per determinare il punto di arresto appropriato.

Importanza rispetto a metodi alternativi
L'architettura PWD-Net affronta limitazioni specifiche degli approcci esistenti attraverso tre moduli complementari. Rispetto ai metodi basati su kernel a convoluzione quadrata standard, il PCM fornisce sensibilità direzionale tramite kernel ruotati a più angoli, consentendo una migliore adattazione alla morfologia irregolare e diversificata dei polipi colorettali. Rispetto ai meccanismi di attenzione monodimensionali (ad esempio, attenzione solo a canale nelle reti di squeeze-and-excitation³³), il DAM modella congiuntamente l'importanza del canale e spaziale, offrendo una soppressione del rumore più completa nell'ambiente colonscopia complesso. Rispetto alle architetture basate su Transformer come TransUNet³⁴ e^{Polyp-PVT 35}, che offrono una forte modellazione globale ma a costi computazionali superiori, PWD-Net raggiunge prestazioni competitive con una dimensione del modello relativamente compatta (9,1 milioni di parametri) e una velocità di inferenza pratica (63 FPS), come documentato nella Tabella 3.

Va notato che i confronti presentati in questo studio (Tabella 3) sono condotti in condizioni controllate con identiche suddivisioni dei dati, preelaborazione e protocolli di valutazione. Le differenze di prestazioni osservate sono specifiche per il set di test Kvasir-SEG (100 immagini) utilizzato in questo studio e potrebbero non generalizzare direttamente ad altri dataset o contesti clinici. Un confronto più ampio che incorpori ulteriori basi consolidate (ad esempio, PraNet³⁶, ResUNet++³⁷) sotto benchmark standardizzati multi-dataset rafforzerebbe ulteriormente le evidenze ed è previsto per lavori futuri. Lavori recenti su architetture codificatore-decodificatore doppio per segmentazione di^{polipi 38} hanno dimostrato il potenziale dei percorsi di codifica e decodifica paralleli. L'architettura PWD-Net si differenzia per il focus sulla modellazione geometrica rotazionale e sul filtraggio a doppia attenzione all'interno di una singola pipeline codificatore-decodificatore, rappresentando una filosofia di progettazione complementare.

Va riconosciuto diversi limiti importanti di questo studio. Innanzitutto, per quanto riguarda l'ambito sperimentale, lo studio attuale riporta i risultati esclusivamente sul dataset Kvasir-SEG con una singola suddivisione casuale di 800 immagini di addestramento, 100 di validazione e 100 di test. La dimensione del set di test (100 immagini) è relativamente piccola e viene riportata solo una singola esecuzione di addestramento senza esperimenti ripetuti o convalida incrociata. Di conseguenza, le metriche di performance riportate possono essere soggette a variazioni legate alla specifica suddivisione dei dati. I lavori futuri dovrebbero incorporare la validazione incrociata k-fold o suddivisioni multiple casuali con deviazioni standard riportate per fornire stime di prestazioni più robuste. In secondo luogo, il PCM introduce un ulteriore overhead computazionale tramite rotazione e aggregazione del kernel a più angoli. Sebbene il modello complessivo rimanga compatto (9,1 milioni di parametri), l'implementazione su dispositivi a risorse limitate in ambienti clinici può richiedere ulteriori ottimizzazioni tramite tecniche come la distillazione della conoscenza o la potatura dei modelli. In terzo luogo, il modello viene addestrato e valutato esclusivamente su immagini statiche, mentre la colonscopia clinica coinvolge flussi video in tempo reale in cui l'aspetto, la dimensione e il punto di vista dei polipi cambiano dinamicamente su fotogrammi consecutivi. Sebbene la velocità di inferenza di 63 FPS sia compatibile con i frame rate in tempo reale, questa metrica da sola non costituisce una validazione clinica. Sarebbe necessaria una validazione prospettica dei dati video endoscopici, studi di lettura e analisi degli endpoint clinici a valle prima che si possano avanzare affermazioni di prontezza^clinica 39,40,41. Il lavoro attuale dovrebbe essere inteso come un contributo metodologico piuttosto che come un sistema clinicamente validato.

In quarto luogo, il percorso di traduzione clinica per la segmentazione dei polipi assistito dall'IA va ben oltre la precisione della segmentazione. Revisioni recenti hanno evidenziato che strumenti avanzati di imaging e analisi devono essere integrati in flussi di lavoro endoluminali più ampi, inclusa la classificazione delle lesioni, la stadiazione e la pianificazione del trattamento. L'attuale protocollo si concentra esclusivamente sulla segmentazione binaria dei polipi e non affronta la classificazione^{patologica 42} (ad esempio, polipi adenomatosi vs. iperplastici) o la valutazione del rischio di malignità, che sono essenziali per guidare le decisioni cliniche. In quinto luogo, i dataset utilizzati in questo studio derivano principalmente da esami di colonscopia per adulti. Non sono rappresentati dati sui polipi pediatrici, sui polipi associati a malattie infiammatorie intestinali e su altri tipi patologici particolari. La generalizzazione del modello a queste popolazioni rimane non testata. In sesto luogo, sebbene siano forniti esperimenti di ablazione e visualizzazioni qualitative per illustrare la funzione di ogni modulo, l'interpretabilità del modello rimane limitata. Il processo decisionale dei modelli di deep learning non è completamente trasparente, il che può influire sulla fiducia e sull'adozione dei clinici. Lavori futuri potrebbero incorporare tecniche di visualizzazione basate su gradiente per fornire spiegazioni più intuitive delle previsioni dei^{modelli 43}.

Nonostante le limitazioni sopra menzionate, il protocollo PWD-Net fornisce un quadro riproducibile per la segmentazione dei polipi che può servire da base per ulteriori sviluppi. Le indicazioni possibili includono: estendere il modello all'analisi della colonscopia basata su video incorporando tecniche di modellazione temporale; l'aggiunta di un ramo di classificazione per la segmentazione end-to-end e la tipizzazione patologica; espandere la valutazione a dataset multicentrici più ampi e diversificati; e esplorare l'integrazione all'interno delle piattaforme robotiche endoluminali, dove l'analisi delle immagini assistita dall'IA è sempre più riconosciuta come una tecnologia abilitante^{chiave 44,45}. Il pacchetto di codice supplementare fornito con questo protocollo è pensato per facilitare la riproduzione e l'adattamento del metodo da parte di altri gruppi di ricerca.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Gli autori non hanno nulla da rivelare.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo studio è stato finanziato dal National Key R&D Program of China (Programmi n. 2022YFC3500200 e 2022YFC3500204).

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Adam Ottimizzatore	—	—	Inclusi in PyTorch
Albumentazioni	Squadra Albumentations	v1.0+	Libreria di potenziamento dati
Kit degli attrezzi CUDA	NVIDIA	v11.3+	Accelerazione GPU
Dataset Kvasir-SEG	SimulaMet	—	https://datasets.simula.no/kvasir-seg/
Matplotlib	Comunità Matplotlib	v3.4+	Visualizzazione delle curve di addestramento
NumPy	Comunità NumPy	v1.21+	Calcolo numerico
NVIDIA Tesla P100	NVIDIA	P100-PCIE-16GB	GPU per addestramento e inferenza
OpenCV	Comunità OpenCV	v4.5+	Preprocessing dell'immagine
Python	Python Software Foundation	v3.8+	Linguaggio di programmazione
PyTorch	Piattaforme Meta	v1.12+	Framework per il deep learning
Pesi pre-addestrati ResNet-50	PyTorch Model Zoo	—	ImageNet-1K pre-addestrato
Ubuntu	Canonico	18.04+	Sistema operativo

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Rete di segmentazione polipia basata sulla convoluzione a spirale e doppia attenzione per la diagnosi di lesioni precancerose colorettali

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles