Questo protocollo implementa una rete di deep learning a forma di U che integra convoluzione a spirale, doppia attenzione e fusione multi-scala per segmentare polipi colorettali.
Method Article
Questo protocollo implementa una rete di deep learning a forma di U che integra convoluzione a spirale, doppia attenzione e fusione multi-scala per segmentare polipi colorettali.
Una segmentazione accurata dei polipi colorettali è fondamentale per la prevenzione precoce e la diagnosi del cancro colorettale. Tuttavia, a causa dell'elevata eterogeneità dei polipi in termini di forma, dimensione e consistenza, nonché della complessità dell'ambiente intestinale (come pieghe, riflessioni speculari e residui fecali), i metodi esistenti affrontano ancora sfide significative nella localizzazione dei confini e nel rilevamento di piccoli polipi. Per affrontare questi problemi, questo articolo propone una Rete di Segmentazione dei Polipi basata su Convoluzione a Ruota e Doppia Attenzione (PWD-Net). La rete proposta adotta un'architettura encoder–decoder a forma di U, in cui un ResNet pre-addestrato viene impiegato come codificatore per estrarre caratteristiche locali multilivello. In particolare, un Modulo di Convoluzione a Ruota (PCM) viene introdotto al livello di collo di bottiglia per catturare la struttura geometrica globale e le informazioni contestuali multidirezionali dei polipi attraverso nuclei di convoluzione ruotati a più angoli. Un Meccanismo di Doppia Attenzione (DAM) che integra l'attenzione del canale e l'attenzione spaziale è progettato per sopprimere in modo adattivo il rumore di fondo e migliorare le caratteristiche della regione dei polipi. Inoltre, viene impiegata una strategia Multi-scale Feature Fusion (MSF) per combinare informazioni semantiche profonde con dettagli di confine superficiali, garantendo sia completezza che precisione dei risultati di segmentazione. Esperimenti condotti sui dataset Kvasir-SEG e CVC-ClinicDB dimostrano che PWD-Net raggiunge coefficienti medi di DICE di 0,865 e 0,944, e punteggi IoU rispettivamente di 0,765 e 0,892, superando significativamente i metodi all'avanguardia esistenti. Gli studi di ablazione verificano l'efficacia di ogni modulo e le valutazioni cross-dataset confermano la forte capacità di generalizzazione del modello. Questo studio offre una soluzione ad alta precisione e robusta per la segmentazione clinica dei polipi, offrendo un valore significativo per la diagnosi precoce delle lesioni precancerose colorettali e supportando l'intervento assistito da computer.
Il cancro colorettale è uno dei tumori maligni più comuni nel mondo, con tassi costantemente elevati di incidenza e mortalità. Gli studi hanno dimostrato che la maggior parte dei tumori colorettali si sviluppa a partire dai polipi adenomatosi, un processo che tipicamente dura 10–15 anni, offrendo una preziosa finestra temporale per la diagnosi precoce e l'intervento. Un aumento dell'1% del tasso di rilevamento degli adenomi (ADR) può ridurre il rischio di cancro colorettale di circa il 3%, diminuendo significativamente la mortalitàdei pazienti 1. La colonscopia, considerata il punto di riferimento per lo screening del cancro colorettale, consente la rimozione diretta dei polipi durante l'esame, riducendo così efficacemente l'incidenza e la mortalità del cancro.
Tuttavia, la colonscopia convenzionale dipende molto dall'esperienza e dal livello di competenza degli endoscopisti. Fattori come il giudizio soggettivo, la stanchezza visiva e la distrazione possono portare a un tasso di mancato controllo del 20%–30%, che influisce direttamente sull'efficacia dello screening2. Pertanto, sviluppare sistemi di rilevamento assistito da computer (CAD) per la segmentazione automatica dei polipi colorettali è di grande importanza per migliorare l'ADR e ridurre le diagnosi mancate. Recenti indagini cliniche hanno ulteriormente evidenziato l'interesse nell'integrazione dell'intelligenza artificiale nei flussi di lavoro di valutazione endoscopica delle lesioni, rafforzando la necessità di metodi di segmentazione robustie riproducibili 3.
Negli ultimi anni, il deep learning ha raggiunto notevoli progressi nell'analisi delle immagini mediche, in particolare nelle reti neurali convoluzionali (CNN), che dimostrano una forte capacità nell'estrazione e rappresentazione delle caratteristiche per compiti di segmentazionedelle immagini 4. Come modello classico di segmentazione delle immagini mediche, U-Net impiega un'architettura codificatore–decodifica simmetrica e salti connessioni per ottenere una segmentazione accurata a livello di pixel, diventando un punto di riferimento in questocampo 5. Basandosi su U-Net, sono state proposte molte architetture migliorate per affrontare compiti complessi di segmentazione delle immagini mediche. UNet++ riduce il divario semantico tra le feature maps di encoder e decoder introducendo connessioni di skip annidate edense 6. ResUNet++ integra blocchi residui, moduli di compressione e eccitazione, convoluzioni dilatate e meccanismi di attenzione, ottenendo ottime prestazioni nella segmentazione deipolipi 7. U2-Net adotta una struttura a forma di U annidata a due livelli per catturare informazioni di caratteristichemultiscala 8. Più recentemente, è stata proposta una rete di segmentazione profonda a doppio encoder e decodificatore, basata su doppio codifica e decodifica, che sfrutta percorsi paralleli di codifica e decodifica per migliorare ulteriormente la precisione dellasegmentazione 9.
Nel frattempo, l'introduzione dei meccanismi di attenzione offre nuove soluzioni per il potenziamento delle caratteristiche e la soppressione del rumore. Attention U-Net utilizza porte di attenzione per concentrarsi sulle regioni target mentre sopprime informazioni di background irrilevanti10. La Dual Attention Network (DANet) pesa in modo adattivo le caratteristiche sia dal canale che dalle dimensionispaziali 11, migliorando la percezione delle caratteristiche critiche. Le Triple Attention Networks (TANet) migliorano ulteriormente le prestazioni di segmentazione attraverso la selezione adattiva di funzionalitàmultiscala 12.
Con il successo delle architetture Transformer nell'elaborazione del linguaggio naturale e nella visioneartificiale 13, i ricercatori hanno iniziato a esplorarne l'applicazione nella segmentazione delle immagini mediche. TransUNet fu il primo a impiegare un Transformer come codificatore per modellare efficacemente dipendenze a lungoraggio 14. Swin-UNet adotta un'architettura puramente Transformer e raggiunge un'aggregazione globale efficiente delle informazioni tramite un meccanismo a finestraspostata 15. UTNet propone un'architettura ibrida che combina la capacità di estrazione delle caratteristiche locali delle CNN con la capacità di modellazione globale di Transformers16.
Nel campo della segmentazione dei polipi, Polyp-PVT utilizza un Transformer a visione piramidale per catturare informazioni semantiche globalisu scala più 17, mentre UNet annidato multiscala migliora la comprensione contestuale integrando Transformers18. Studi recenti hanno inoltre esplorato strategie di apprendimento per correlazione negativa per la segmentazione multi-dominiodei polipi 19, il potenziamento della segmentazione aumentata con Gompertz20 e architetture basate sull'attenzione che incorporano la guida deiconfini 21. Sebbene questi approcci migliorino in una certa misura le prestazioni della segmentazione, la segmentazione dei polipi affronta ancora diverse sfide. Innanzitutto, i polipi mostrano un'elevata eterogeneità nella morfologia, dimensione e texture, variando da micropolipi più piccoli di 5 mm a polipi grandi che superano i 30 mm, con forme che variano da circolari ed ellittiche a forme altamente irregolari. In secondo luogo, l'ambiente intestinale è complesso e variabile, dove le pieghe mucose, le riflessioni speculari, i residui fecali e i detriti alimentari introducono gravi interferenze di fondo. In terzo luogo, molti polipi hanno confini sfocati, possono essere parzialmente occlusi da pieghe o sommersi nei fluidi intestinali, rendendo la localizzazione precisa dei confini estremamentedifficile 22.
I metodi esistenti presentano ancora chiari limiti nell'affrontare queste sfide. Le CNN tradizionali sono efficaci nell'estrarre le caratteristiche locali di texture e bordi; tuttavia, i nuclei a convoluzione quadrata fissa non sono adatti a catturare forme geometriche diverse23, specialmente per polipi altamente irregolari, e non possono modellare efficacemente caratteristiche geometriche multidirezionali. I metodi basati su trasformatori possono modellare dipendenze globali ma sono meno efficaci nel catturare dettagli locali fini e informazioni di confine. Inoltre, la loro elevata complessità computazionale li rende meno adatti ad applicazioni cliniche in temporeale 24. Approcci recenti di segmentazione dei polipi come PraNet, che utilizza moduli di attenzione inversa per affinare le regioni chiave25, le reti di attenzione a cascata guidate dai confini che migliorano l'estrazione delle caratteristichedei confini 26, e CAFE-Net, che fonde le caratteristiche di encoder e decoder tramite meccanismi di attenzioneincrociata 27, incontrano ancora una rappresentazione delle caratteristiche insufficiente e una localizzazione dei confini imprecisa quando si lavora con piccolipolipi 28, confini sfocati e sfondi complessi. Inoltre, la maggior parte dei metodi trascura la morfologia geometrica e non sfrutta appieno le informazioni contestuali multidirezionali, portando a una segmentazione subottimale dei polipi di forma irregolare.
In sintesi, i metodi attuali basati su CNN non sono in grado di catturare caratteristiche geometriche multidirezionali a causa della loro dipendenza da nuclei a convoluzione quadrata fissa. Gli approcci basati su trasformatori offrono modellazione globale ma sacrificano la precisione locale dei confini e impongono elevati costi computazionali. Nel frattempo, le strategie di fusione attuali a attenzione potenziata e multiscala non sono state ottimizzate congiuntamente all'interno di un quadro unificato specificamente pensato per la segmentazionedei polipi 29. Queste lacune motivano lo sviluppo di un metodo che affronta contemporaneamente la modellazione geometrica delle caratteristiche, la soppressione adattiva del rumore e l'integrazione delle caratteristiche su scala trasversale.
Per affrontare questi problemi, questo protocollo presenta una Rete di Segmentazione di Polipi basata su Convoluzione a Ruota e Doppia Attenzione (PWD-Net). La rete proposta integra modellazione geometrica delle caratteristiche, miglioramento dell'attenzione multidimensionale e fusione di caratteristiche su più scala, consentendo una segmentazione precisa dei polipi complessi. I principali contributi di questo lavoro sono riassunti come segue: il modulo convoluzione a pinwheel (PCM), ispirato alla struttura di una pinwheel, è proposto un nuovo design di kernel a convoluzione ruotata che cattura caratteristiche geometriche multidirezionali dei polipi tramite operazioni di convoluzione a più angoli (0°, 45°, 90°, 135°, 180°, 225°, 270° e 315°). Questo modulo sostituisce lo strato di convoluzione convenzionale nella fase di collo di bottiglia, consentendo una percezione efficace delle diverse orientazioni dei bordi e migliorando significativamente la rappresentazione dei polipi dalla forma irregolare. Il meccanismo di doppia attenzione (DAM) affronta il rumore di fondo come pieghe, riflessioni e residui fecali nelle immagini della colonscopia. È progettato un modulo a doppia attenzione che integra l'attenzione canale e l'attenzione spaziale. Integrato all'interno delle connessioni di salto, questo modulo sopprime in modo adattivo le interferenze di fondo e migliora le risposte delle caratteristiche nelle regioni polipali, identificando congiuntamente "cosa" è importante (dimensione del canale) e "dove" si trova il bersaglio (dimensione spaziale), assicurando che solo le caratteristiche raffinate siano coinvolte nella fusione successiva. La strategia di fusione delle caratteristiche multiscala (MSF) preserva sia informazioni semantiche profonde sia dettagli di confine superficiali attraverso un meccanismo gerarchico introdotto nel decodificatore. Integrando progressivamente le caratteristiche degli encoder potenziati da DAM con le caratteristiche del decoder upcampionate, questa strategia compensa efficacemente la perdita di dettaglio spaziale causata dal downsampling, consentendo una rilevazione accurata di piccoli polipi e una delineazione precisa dei confini.
Questo studio utilizza solo dataset di immagini anonime per colonscopia pubblicamente disponibili (Kvasir-SEG). Non sono stati raccolti nuovi dati sui soggetti umani. Non erano richieste l'approvazione etica istituzionale e il consenso informato del paziente, come confermato dalle politiche di revisione istituzionale per analisi retrospettive di dataset pubblici deidentificati.
1. Preparazione dei dati
2. Architettura complessiva
NOTA: Consulta la Figura 1 per la backbone encoder–decoder a livello macro di PWD-Net, e la Figura 2 per l'integrazione e l'interazione dei moduli core all'interno del feature flow. L'architettura complessiva segue un design codificatore-decodificatore a forma di U per gestire variazioni di scala di polipi e interferenze di fondo nelle immagini di colonscopia.
3. Modulo di convoluzione a ruota a spirale (Figura 3)

4. Meccanismo di doppia attenzione (Figura 4)
NOTA: Il Dual-Attention Mechanism (DAM) è incorporato in ogni connessione skip per sopprimere il rumore di fondo e migliorare le caratteristiche della regione dei polipi sia dal canale che da quello spaziale.


5. Fusione di caratteristiche multi-scala
6. Funzione di perdita e configurazione di addestramento



7. Pseudocodice
Algoritmo 1: Segmentazione PWD-Net dei polipi
1: Input: Immagine della colonscopia I ∈R H×W×3
2: Output: Maschera di segmentazione M ∈ {0,1}(H×W)
3:
4: funzione PCM(X) ▷ Modulo di Convoluzione a Ruota
5: Definiamo nucleo base W (3 x 3), angoli Θ = {0°, 45°, ..., 315°}
6: per ogni θ ∈ Θ do
7: Wθ ← BilinearRotate(W, θ) ▷ Rotate kernel
8: Yθ ← Conv2d(X, Wθ) ▷ Caratteristiche specifiche per la direzione
9: fine per
10: Yout ← ReLU(BN(Conv1 x 1(Concat({Y θ})))) ▷ Aggregate
11: riporta Yfuori
12: funzione finale
13:
14: funzione DAM(F) ▷ Meccanismo di doppia attenzione
15: Ac ← Sigmoid(MLP(AvgPool(F))) ▷ Attenzione canale (r=16)
16: As ← Sigmoid(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Attenzione spaziale
17: F' ← F ⊗ (α · Ac + β · As) ▷ Fusi con α imparabile, β (init=0.5)
18: ritorno F'
19: fine della funzione
20:
21: funzione PWD-Net(I)
22: Codificatore: e1,e 2,e 3,e 4,e 5 ← ResNet50_Stages(I) ▷ Codificatore preaddestrato a 5 stadi
23: Collo di bottiglia: b ← PCM(e5) ▷ Applicare PCM al collo di bottiglia
24: Saltare le connessioni: si ← DAM(e i) per i = 1, 2, 3, 4 ▷ Caratteristiche dell'encoder del filtro
25: Decodificatore:
26: d 4 ← DoubleConv(Concat(Up(b), s4))
27: d 3 ← DoubleConv(Concat(Up(d 4),s 3))
28: d 2 ← DoubleConv(Concat(Up(d3), s2))
29: d 1 ← DoubleConv(Concat(Up(d2), s1))
30: M ← Sigmoid (Conv1 x 1(d1))
31: ritorno M
32: funzione finale
33:
34: Allenamento:
35: per ogni epoca fai
36: M̂ ← PWD-Net(I)
37: L ← 0,5 · A.C.(M̂, MGT) + 0,5 · DadoLoss(M̂,M gt) ▷ λ = 0,5
38: Aggiornare i parametri tramite retropropagazione (Adam ottimizzar)
39: fine per
Configurazione sperimentale
Dataset
Il dataset Kvasir SEG è stato utilizzato per valutare il comportamento di segmentazione di PWD Net su immagini di colonscopia con aspetto eterogeneo di polipi. Il dataset contiene immagini di polipi annotate in pixel da 1.000 e include variazioni nella dimensione, forma, texture, illuminazione e complessità dello sfondo, rendendolo adatto per valutare il rilevamento di piccoli bersagli, la localizzazione dei confini e la robustezza alle interferenze visive. Il dataset era suddiviso in sottoinsiemi di addestramento, validazione e test, e il set finale di test veniva utilizzato solo per la valutazione delle prestazioni. La distribuzione delle immagini è riassunta nella Tabella 1.
Dettagli di implementazione
Le impostazioni di implementazione richieste per la riproducibilità sono riassunte nella Tabella 2, e i dettagli procedurali completi sono forniti nei passaggi di Preparazione dei Dati e nella Sezione 5.2 del Protocollo. Per interpretare i risultati, tutti gli esperimenti riportati utilizzavano la stessa risoluzione di input, ambiente hardware e condizioni di valutazione elencate nella Tabella dei Materiali. I valori riportati si basano sul checkpoint di validazione Dice selezionato da una singola esecuzione usando seed = 42, quindi i risultati dovrebbero essere interpretati come prestazioni sotto una suddivisione sperimentale fissa piuttosto che come risultati medi di validazione incrociata.
Metriche di valutazione
Le prestazioni di segmentazione sono state valutate utilizzando il coefficiente di Dice, l'intersezione su Unione, l'accuratezza a livello di pixel e la velocità di inferenza. Il coefficiente di dadi e l'intersezione su unione sono stati utilizzati come principali metriche basate sulla sovrapposizione perché riflettono direttamente l'accordo tra la maschera prevista e la regione dei polipi annotati da esperti. L'accuratezza a livello di pixel è stata riportata come misura supplementare perché le immagini di colonscopia spesso contengono ampie aree di sfondo. La velocità di inferenza, riportata in frame per secondo, è stata inclusa per valutare se il modello mantiene l'efficienza computazionale pratica migliorando la qualità della segmentazione.
Confronto con i metodi esistenti
Per dimostrare il comportamento e l'efficacia di PWD-Net, viene effettuato un confronto con cinque metodi rappresentativi di segmentazione dei polipi: CBSA (Channel-Boosted Spatial Attention network)34, FSSA (Feature-Shared Spatial Attention network), MSF (Multi-Scale Fusion network), Pinwheel-Conv (Pinwheel Convolution baseline senza attenzione o moduli di fusione) e PolaLinear (Polarized Linear Attention network). Tutti i metodi di confronto vengono reimplementati utilizzando i loro codici sorgente ufficialmente rilasciati e addestrati sullo stesso set di addestramento Kvasir-SEG (800 immagini) con pre-elaborazione, risoluzione di input (352 x 352) e impostazioni di valutazione identiche per garantire un confronto equo. La Tabella 3 presenta i risultati quantitativi sul set di test.
Come mostrato nella Tabella 3, PWD-Net raggiunge un coefficiente di Dice di 0,865 e un IoU di 0,765, rappresentando miglioramenti dell'1,8% in Dice e del 4,8% in IoU rispetto al metodo successivo migliore (CBSA). In particolare, PWD-Net raggiunge questo obiettivo con parametri di 9,1M, rispetto ai 18,4M del CBSA, indicando un'efficienza favorevole. Sebbene PolaLinear e Pinwheel-Conv offrano velocità di inferenza più elevate (rispettivamente 79 e 72 FPS), la loro accuratezza di segmentazione è visibilmente inferiore, suggerendo che PWD-Net offre un equilibrio ragionevole tra accuratezza e costo computazionale per il dataset valutato. Per illustrare il comportamento qualitativo della segmentazione, sono stati selezionati cinque campioni rappresentativi di test che coprono piccoli polipi, polipi grandi, sfondi complessi e confini sfocati per il confronto visivo. La Figura 5 presenta i risultati di segmentazione di quattro metodi di comparazione selezionati (CBSA, FSSA, MSF e PWD-Net) insieme alla verità sul campo. Ogni colonna di previsione è etichettata con il corrispondente nome del metodo. Pinwheel-Conv e PolaLinear sono omessi da questa figura per chiarezza visiva, poiché le loro prestazioni quantitative sono sostanzialmente inferiori; questa figura rappresenta quindi un sottoinsieme selezionato dei metodi confrontati nella Tabella 3.
Come mostrato nella Figura 5, in scenari a piccoli polipi (prima e quinta riga), FSSA e MSF mostrano rilevamenti mancati, mentre PWD-Net cattura i bersagli in modo più completo. Negli scenari con grandi polipi (seconda e terza riga), CBSA e FSSA producono irregolarità evidenti nei confini, mentre PWD-Net genera confini più lisci. Nello scenario del confine sfocato (quarta fila), PWD-Net dimostra una soppressione efficace del rumore di fondo tramite il meccanismo di doppia attenzione.
Studio sull'ablazione
Per analizzare il contributo di ciascun componente core in PWD-Net, viene condotto uno studio sistematico di ablazione. Utilizzando ResNet-50 come codificatore backbone per formare il modello base, il Modulo Convoluzione Pinwheel (Pinwheel), il Dual-Attention Mechanism (Dual-Attn) e il modulo Multi-Scale Feature Fusion (MSF) sono incorporati in modo incrementale. La Tabella 4 riassume i risultati quantitativi.
I principali risultati della Tabella 4 possono essere riassunti come segue. Innanzitutto, aggiungere un singolo modulo migliora le prestazioni del modello baseline. Il Meccanismo di Doppia Attenzione porta i guadagni più significativi (Dadi: +2,0%, IoU: +2,7%), supportando l'efficacia della soppressione adattiva del rumore. Il Modulo Convoluzione a Roda contribuisce con un miglioramento dell'1,6% nei dadi, indicando il vantaggio dell'estrazione di caratteristiche multidirezionale per forme irregolari di polipi. In secondo luogo, combinando la Convoluzione a Ruota e il Meccanismo di Doppia Attenzione aumenta ulteriormente le prestazioni a Dado = 0,858 e IoU = 0,748, suggerendo la complementarità tra i due moduli. Infine, l'intero PWD-Net (che integra tutti e tre i moduli) raggiunge la migliore performance osservata (Dice = 0,865, IoU = 0,765), con miglioramenti rispettivamente del 3,3% e del 6,0%, rispetto alla linea di base, dimostrando il contributo di ciascun componente proposto in questo dataset.
Analisi del processo di formazione
Per illustrare la dinamica di addestramento e le caratteristiche di convergenza di PWD-Net, le principali metriche di performance vengono registrate e visualizzate in 50 epoche di addestramento. La Figura 6 mostra le variazioni della funzione di perdita, del coefficiente dei dadi, dell'IoU e della precisione durante l'addestramento.
Come mostrato nella Figura 6(a), sia la perdita di addestramento che quella di validazione diminuiscono rapidamente nelle prime 10 epoche e poi si stabilizzano gradualmente. La perdita di validazione rimane leggermente superiore a quella di addestramento per tutta la durata, ma le due curve seguono una tendenza costante con un piccolo divario, indicando che il modello non soffre di un grave overfitting. La Figura 6(b) mostra che il coefficiente di Dice aumenta bruscamente nella fase iniziale di addestramento, converge dopo circa la 30ª epoca e si stabilizza sopra 0,86. La curva IoU nella Figura 6(c) mostra una tendenza di crescita simile, raggiungendo circa 0,765 nella fase finale di allenamento. La Figura 6(d) indica che l'accuratezza supera il 94%. Le tendenze stabili di validazione nelle fasi di addestramento intermedie e avanzate suggeriscono che la strategia adottata di aumento dei dati e il programma di annealing coseno contribuiscono a mitigare l'overfitting su questo dataset.
Prestazioni tra le dimensioni dei polipi
Per valutare ulteriormente l'applicabilità di PWD-Net in diversi scenari clinici, il set di test (100 immagini) è suddiviso in tre categorie in base al rapporto tra area polipa e area totale dell'immagine: polipi piccoli (< 5%), polipi medi (5%–30%) e polipi grandi (> 30%). Questa classificazione riflette l'influenza della scala dei polipi sulla difficoltà di segmentazione. La Tabella 5 presenta le prestazioni quantitative in ciascuna categoria. Come mostrato nella Tabella 5, PWD-Net ottiene le migliori prestazioni nella categoria dei polipi medi (Dadi = 0,882, IoU = 0,790), il che è coerente con la rappresentazione più ampia di questa categoria (54 immagini di test su 100). Le prestazioni sui polipi grandi rimangono a un livello comparabile (Dadi = 0,861, IoU = 0,760). Le prestazioni su piccoli polipi sono relativamente inferiori (Dadi = 0,812, IoU = 0,685), principalmente perché i piccoli bersagli occupano una piccola parte dell'immagine e sono più suscettibili al rumore di fondo con informazioni di confine più scarse.
Questi risultati suggeriscono che la capacità di cattura delle caratteristiche multidirezionali del Modulo di Convoluzione Pinwheel e la capacità di localizzazione spaziale del Dual-Attention Mechanism contribuiscono a mantenere una qualità di segmentazione ragionevole tra diverse scale di polipi nel set di test valutato.

Figura 1: Struttura del modello PWD-Net. Struttura complessiva della proposta Polyp Segmentation Network basata su Pinwheel Convolution and Dual Attention (PWD-Net), illustrando l'encoder (ResNet-50), il collo di bottiglia (PCM), le connessioni di salto potenziate da DAM, il decodificatore MSF e la generazione di output per la segmentazione dei polipi colorettali. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 2: Diagramma di flusso complessivo dell'architettura di PWD-Net. Diagramma di flusso dettagliato dell'intera architettura PWD-Net, mostrando l'encoder ResNet-50 a cinque stadi, il collo di bottiglia PCM, le connessioni DAM skip, il decodificatore di fusione di feature multi-scale e la generazione finale di previsione. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 3: Diagramma schematico del modulo di convoluzione a spirale. Schema strutturale e operativo del Modulo Convoluzione a Ruota, che dimostra nuclei di convoluzione ruotati a più angoli, rotazione basata su interpolazione bilineare, concatenazione di canali e aggregazione di convoluzioni 1 x 1. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 4: Diagramma strutturale del meccanismo della doppia attenzione. Diagramma architettonico del DAM, che mostra il ramo parallelo di attenzione del canale (Global Average Pooling → MLP con rapporto di riduzione r = 16 → Sigmoid) e il ramo di attenzione spaziale (pooling canale per canale → convoluzione 7 x 7 → Sigmoid), seguiti da fusione ponderata con coefficienti apprendibili α e β. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 5: Confronto qualitativo dei risultati della segmentazione. Ogni riga rappresenta un campione di prova. Colonne da sinistra a destra: Immagine di input, Ground Truth, CBSA, FSSA, MSF e PWD-Net (Nostro). Pinwheel-Conv e PolaLinear sono omessi da questa figura per chiarezza visiva; vedi la Tabella 3 per il confronto quantitativo completo. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 6: Curve di addestramento di PWD-Net in 50 epoche. (a) Perdita di addestramento e validazione. (b) Coefficiente di dadi. (c) Intersezione sopra Union (IoU). (d) Accuratezza a livello di pixel. Clicca qui per visualizzare una versione più grande di questa figura.
| Sottoinsieme di addestramento | Numero di campioni | Proporzioni |
| Treno | 800 | 80% |
| Set di validazione | 100 | 10% |
| Set di prova | 100 | 10% |
| Set totale | 1000 | 100% |
Tabella 1: Statistiche del dataset. Distribuzione suddivisa del dataset per il dataset Kvasir-SEG (1.000 immagini totali), che mostra il numero di immagini e la proporzione assegnate ai sottoinsiemi di addestramento, validazione e test (seed casuale = 42).
| Categoria | Elemento Parametro | Impostazione dei parametri |
| Quadro di Deep Learning | Quadro | PyTorch |
| Ambiente hardware | GPU | NVIDIA Tesla P100 |
| Metodo di accelerazione | Accelerazione GPU | CUDA |
| Impostazioni di input | Dimensione dell'immagine di input | 352 × 352 |
| Formato immagine | Formato immagine | Immagine RGB |
| Ottimizzatore | Ottimizzatore | Adam |
| Tasso di apprendimento iniziale | LR iniziale | 1 × 10⁻4 |
| Dimensione del lotto | Dimensione del lotto | 16 |
| Epoche di addestramento | Epoche | 50 |
| Funzione di perdita | Funzione di perdita | Perdita dei dadi + BCE |
Tabella 2: Impostazioni dei parametri sperimentali. Impostazioni sperimentali dei parametri per l'addestramento e la valutazione PWD-Net. Consulta i passaggi di preparazione dei dati e la Sezione 5.2 del Protocollo per la procedura completa di implementazione passo dopo passo.
| Metodo | Dadi ↑ | IoU ↑ | Accuratezza ↑ | Parametri (M) ↓ | FPS ↑ |
| CBSA | 0.8466 | 0.717 | 0.9325 | 18.4 | 36 |
| FSSA | 0.7109 | 0.551 | 0.9012 | 9.8 | 61 |
| MSF | 0.7337 | 0.585 | 0.9086 | 11.5 | 54 |
| Pinwheel-Conv | 0.8007 | 0.6742 | 0.9401 | 7.9 | 72 |
| PolaLinear | 0.7213 | 0.5707 | 0.9113 | 6.6 | 79 |
| PWD-Net (Nostro) | 0.865 | 0.7651 | 0.9478 | 9.1 | 63 |
Tabella 3: Risultati di confronto quantitativo. Confronto quantitativo di PWD-Net con cinque metodi esistenti di segmentazione dei polipi sul set di test Kvasir-SEG (100 immagini). Tutti i metodi vengono valutati con suddivisioni dei dati, preprocessing e risoluzione degli input identiche (352 x 352). ↑ indica che più alto è meglio; ↓ indica che più basso è meglio. I metodi contrassegnati con * indicano i risultati citati dalla pubblicazione originale invece che reimplementati.
| Configurazione | Ruota a spillo | Dual-Attn | MSF | Dadi ↑ | IoU ↑ |
| Base | × | × | × | 0.832 | 0.705 |
| + Ruota a spillo | √ | × | × | 0.848 | 0.725 |
| + Dual-Attn | × | √ | × | 0.852 | 0.732 |
| + MSF | × | × | √ | 0.844 | 0.72 |
| + Ruota a spillo + Doppia Attenzione | √ | √ | × | 0.858 | 0.748 |
| Pieno (PWD-Net) | √ | √ | √ | 0.865 | 0.765 |
Tabella 4: Risultati dello studio di ablazione. I risultati dello studio di ablazione sul set di test Kvasir-SEG, che mostrano il contributo incrementale del Modulo di Convoluzione Pinwheel (Pinwheel), del Dual-Attention Mechanism (Dual-Attn) e della Multi-Scale Feature Fusion (MSF) all'encoder base ResNet-50.
| Tipo di polipo | Numero | Dadi ↑ | IoU ↑ |
| Polipi piccoli (< 5%) | 21 | 0.812 | 0.685 |
| Polipi medi (5%–30%) | 54 | 0.882 | 0.79 |
| Polipi grandi (> 30%) | 25 | 0.861 | 0.76 |
Tabella 5: Prestazioni di PWD-Net su diversi tipi di polipi. Prestazioni di PWD-Net su diverse categorie di dimensioni di polipi all'interno del set di test Kvasir-SEG (100 immagini). La dimensione del polipo è definita dal rapporto tra l'area del polipo e l'area totale dell'immagine.
File supplementare: Archivio compresso contenente l'implementazione del framework PWD-Net. Il file include model.py definire l'architettura di rete con il Pinwheel Convolution Module (PCM) e il Dual-Attention Mechanism (DAM), train.py implementare la pipeline di carico dati, la funzione di perdita e la procedura di addestramento, test.py per l'inferenza e valutazione del modello sui dataset di test, e requirements.txt elencare tutte le librerie Python richieste e le relative versioni. Clicca qui per scaricare questo file.
Diverse scelte di progettazione nel protocollo PWD-Net sono fondamentali per ottenere risultati di segmentazione affidabili e meritano un'attenta attenzione durante l'implementazione. Innanzitutto, la selezione e l'inizializzazione della backbone dell'encoder influenzano direttamente il comportamento di convergenza e le prestazioni finali. Il protocollo impiega un codificatore ResNet-50 pre-addestrato su ImageNet, che fornisce un'inizializzazione robusta delle funzionalità di basso e medio livello. Questo è particolarmente importante per compiti di segmentazione delle immagini mediche, dove i dati di addestramento disponibili sono limitati (800 immagini nel presente studio). La fine-tuning di tutti gli strati degli encoder, invece di congelarli, permette alla rete di adattare le caratteristiche pre-addestrate alle caratteristiche specifiche delle immagini di colonscopia, come texture mucose e riflessioni speculari. In secondo luogo, la collocazione di ogni modulo core all'interno dell'architettura è intenzionale. Il Modulo di Convoluzione a Ruota (PCM) è posizionato nel collo di bottiglia, dove la risoluzione spaziale è più bassa ma l'informazione semantica è più ricca, consentendo la cattura efficiente di pattern geometrici globali senza costi computazionali eccessivanti. Il Dual-Attention Mechanism (DAM) è incorporato nelle connessioni di salto piuttosto che nel decodificatore, assicurando che il rumore di fondo venga soppresso prima che le caratteristiche vengano trasmesse al decodificatore, impedendo così alle caratteristiche contaminate di propagarsi attraverso le fasi di fusione. Lo studio sull'ablazione (Tabella 4) supporta questo progetto: il DAM contribuisce con il maggior aumento di prestazioni individuale (Dadi: +2,0%), confermando l'importanza della soppressione precoce del rumore nella pipeline di funzionalità. Terzo, la funzione di perdita ibrida (0,5 · A.C. + 0,5 · Dice) bilancia l'accuratezza della classificazione a livello di pixel con l'ottimizzazione della sovrapposizione a livello regionale. Questa combinazione è particolarmente rilevante per la segmentazione dei polipi, dove lo squilibrio di classe in primo piano e sfondo è comune. La pesatura uguale (λ = 0,5) viene adottata come impostazione predefinita; può essere necessario aggiustare questo rapporto per dataset con diverse distribuzioni di classe (vedi Troubleshooting sotto).
Modifiche e risoluzione dei problemi
Le seguenti modifiche e linee guida per la risoluzione dei problemi sono fornite per adattare il protocollo a diversi contesti sperimentali. Quando si applica il protocollo a dataset con diverse risoluzioni di immagine o distribuzioni di dimensione dei polipi, la risoluzione degli input (352 x 352) può necessitare di aggiustamenti. Dimensioni di ingresso maggiori possono migliorare la rilevazione dei piccoli polipi a scapito di un maggiore consumo di memoria e una riduzione della velocità di inferenza. Se la perdita di allenamento non converge entro 50 epoche, si considera di ridurre la velocità di apprendimento iniziale (ad esempio, a 5 x 10⁻5) o aumentare la lunghezza del ciclo di ricottura coseno. Se il modello mostra alti tassi di falsi positivi in regioni con riflessioni speculari severe o pieghe mucosate, aumentare il peso della componente di perdita di Dado (ad esempio, λ = 0,4 per BCE, 0,6 per Dado) può migliorare la precisione dei confini a scapito della precisione a livello di pixel. Al contrario, se il modello sottosegmenta piccoli polipi, aumentare il peso BCE può aiutare. Il numero di angoli di rotazione nel PCM (attualmente otto, da 0° a 315° in incrementi di 45°) rappresenta un equilibrio tra copertura direzionale e costo computazionale. Ridurre a quattro angoli (0°, 90°, 180°, 270°) diminuisce il calcolo ma può ridurre la sensibilità ai confini obliqui dei polipi. Il rapporto di riduzione r = 16 nel ramo di attenzione del canale del DAM segue la convenzione stabilita dalle precedenti reti di compressione eeccitazione 32; Rapporti più piccoli (ad esempio, r = 8) aumentano la capacità del modello ma possono portare a un sovrafitting su dataset piccoli. Per dataset significativamente più grandi di Kvasir-SEG, si considera di aumentare la dimensione del lotto e le epoche di addestramento di conseguenza, e monitorare le metriche di validazione per determinare il punto di arresto appropriato.
Importanza rispetto a metodi alternativi
L'architettura PWD-Net affronta limitazioni specifiche degli approcci esistenti attraverso tre moduli complementari. Rispetto ai metodi basati su kernel a convoluzione quadrata standard, il PCM fornisce sensibilità direzionale tramite kernel ruotati a più angoli, consentendo una migliore adattazione alla morfologia irregolare e diversificata dei polipi colorettali. Rispetto ai meccanismi di attenzione monodimensionali (ad esempio, attenzione solo a canale nelle reti di squeeze-and-excitation33), il DAM modella congiuntamente l'importanza del canale e spaziale, offrendo una soppressione del rumore più completa nell'ambiente colonscopia complesso. Rispetto alle architetture basate su Transformer come TransUNet34 ePolyp-PVT 35, che offrono una forte modellazione globale ma a costi computazionali superiori, PWD-Net raggiunge prestazioni competitive con una dimensione del modello relativamente compatta (9,1 milioni di parametri) e una velocità di inferenza pratica (63 FPS), come documentato nella Tabella 3.
Va notato che i confronti presentati in questo studio (Tabella 3) sono condotti in condizioni controllate con identiche suddivisioni dei dati, preelaborazione e protocolli di valutazione. Le differenze di prestazioni osservate sono specifiche per il set di test Kvasir-SEG (100 immagini) utilizzato in questo studio e potrebbero non generalizzare direttamente ad altri dataset o contesti clinici. Un confronto più ampio che incorpori ulteriori basi consolidate (ad esempio, PraNet36, ResUNet++37) sotto benchmark standardizzati multi-dataset rafforzerebbe ulteriormente le evidenze ed è previsto per lavori futuri. Lavori recenti su architetture codificatore-decodificatore doppio per segmentazione dipolipi 38 hanno dimostrato il potenziale dei percorsi di codifica e decodifica paralleli. L'architettura PWD-Net si differenzia per il focus sulla modellazione geometrica rotazionale e sul filtraggio a doppia attenzione all'interno di una singola pipeline codificatore-decodificatore, rappresentando una filosofia di progettazione complementare.
Va riconosciuto diversi limiti importanti di questo studio. Innanzitutto, per quanto riguarda l'ambito sperimentale, lo studio attuale riporta i risultati esclusivamente sul dataset Kvasir-SEG con una singola suddivisione casuale di 800 immagini di addestramento, 100 di validazione e 100 di test. La dimensione del set di test (100 immagini) è relativamente piccola e viene riportata solo una singola esecuzione di addestramento senza esperimenti ripetuti o convalida incrociata. Di conseguenza, le metriche di performance riportate possono essere soggette a variazioni legate alla specifica suddivisione dei dati. I lavori futuri dovrebbero incorporare la validazione incrociata k-fold o suddivisioni multiple casuali con deviazioni standard riportate per fornire stime di prestazioni più robuste. In secondo luogo, il PCM introduce un ulteriore overhead computazionale tramite rotazione e aggregazione del kernel a più angoli. Sebbene il modello complessivo rimanga compatto (9,1 milioni di parametri), l'implementazione su dispositivi a risorse limitate in ambienti clinici può richiedere ulteriori ottimizzazioni tramite tecniche come la distillazione della conoscenza o la potatura dei modelli. In terzo luogo, il modello viene addestrato e valutato esclusivamente su immagini statiche, mentre la colonscopia clinica coinvolge flussi video in tempo reale in cui l'aspetto, la dimensione e il punto di vista dei polipi cambiano dinamicamente su fotogrammi consecutivi. Sebbene la velocità di inferenza di 63 FPS sia compatibile con i frame rate in tempo reale, questa metrica da sola non costituisce una validazione clinica. Sarebbe necessaria una validazione prospettica dei dati video endoscopici, studi di lettura e analisi degli endpoint clinici a valle prima che si possano avanzare affermazioni di prontezzaclinica 39,40,41. Il lavoro attuale dovrebbe essere inteso come un contributo metodologico piuttosto che come un sistema clinicamente validato.
In quarto luogo, il percorso di traduzione clinica per la segmentazione dei polipi assistito dall'IA va ben oltre la precisione della segmentazione. Revisioni recenti hanno evidenziato che strumenti avanzati di imaging e analisi devono essere integrati in flussi di lavoro endoluminali più ampi, inclusa la classificazione delle lesioni, la stadiazione e la pianificazione del trattamento. L'attuale protocollo si concentra esclusivamente sulla segmentazione binaria dei polipi e non affronta la classificazionepatologica 42 (ad esempio, polipi adenomatosi vs. iperplastici) o la valutazione del rischio di malignità, che sono essenziali per guidare le decisioni cliniche. In quinto luogo, i dataset utilizzati in questo studio derivano principalmente da esami di colonscopia per adulti. Non sono rappresentati dati sui polipi pediatrici, sui polipi associati a malattie infiammatorie intestinali e su altri tipi patologici particolari. La generalizzazione del modello a queste popolazioni rimane non testata. In sesto luogo, sebbene siano forniti esperimenti di ablazione e visualizzazioni qualitative per illustrare la funzione di ogni modulo, l'interpretabilità del modello rimane limitata. Il processo decisionale dei modelli di deep learning non è completamente trasparente, il che può influire sulla fiducia e sull'adozione dei clinici. Lavori futuri potrebbero incorporare tecniche di visualizzazione basate su gradiente per fornire spiegazioni più intuitive delle previsioni deimodelli 43.
Nonostante le limitazioni sopra menzionate, il protocollo PWD-Net fornisce un quadro riproducibile per la segmentazione dei polipi che può servire da base per ulteriori sviluppi. Le indicazioni possibili includono: estendere il modello all'analisi della colonscopia basata su video incorporando tecniche di modellazione temporale; l'aggiunta di un ramo di classificazione per la segmentazione end-to-end e la tipizzazione patologica; espandere la valutazione a dataset multicentrici più ampi e diversificati; e esplorare l'integrazione all'interno delle piattaforme robotiche endoluminali, dove l'analisi delle immagini assistita dall'IA è sempre più riconosciuta come una tecnologia abilitantechiave 44,45. Il pacchetto di codice supplementare fornito con questo protocollo è pensato per facilitare la riproduzione e l'adattamento del metodo da parte di altri gruppi di ricerca.
Gli autori non hanno nulla da rivelare.
Questo studio è stato finanziato dal National Key R&D Program of China (Programmi n. 2022YFC3500200 e 2022YFC3500204).
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| Adam Ottimizzatore | — | — | Inclusi in PyTorch |
| Albumentazioni | Squadra Albumentations | v1.0+ | Libreria di potenziamento dati |
| Kit degli attrezzi CUDA | NVIDIA | v11.3+ | Accelerazione GPU |
| Dataset Kvasir-SEG | SimulaMet | — | https://datasets.simula.no/kvasir-seg/ |
| Matplotlib | Comunità Matplotlib | v3.4+ | Visualizzazione delle curve di addestramento |
| NumPy | Comunità NumPy | v1.21+ | Calcolo numerico |
| NVIDIA Tesla P100 | NVIDIA | P100-PCIE-16GB | GPU per addestramento e inferenza |
| OpenCV | Comunità OpenCV | v4.5+ | Preprocessing dell'immagine |
| Python | Python Software Foundation | v3.8+ | Linguaggio di programmazione |
| PyTorch | Piattaforme Meta | v1.12+ | Framework per il deep learning |
| Pesi pre-addestrati ResNet-50 | PyTorch Model Zoo | — | ImageNet-1K pre-addestrato |
| Ubuntu | Canonico | 18.04+ | Sistema operativo |
Request permission to reuse the text or figures of this JoVE article
Request Permission