Polypensegmentierungsnetzwerk basierend auf Pinwheel-Konvolution und doppelter Aufmerksamkeit für die Diagnose einer kolorektalen präkanzerösen Läsion

Ning Du; Xinqi Liu; Li Ji; Chuijie Wang

doi:10.3791/71178

Method Article

Polypensegmentierungsnetzwerk basierend auf Pinwheel-Konvolution und doppelter Aufmerksamkeit für die Diagnose einer kolorektalen präkanzerösen Läsion

DOI:

10.3791/71178

⸱

June 26th, 2026

Ning Du*¹ , Xinqi Liu*¹ , Li Ji² , Chuijie Wang³

¹National Cancer Center/National Clinical Research Center for Cancer/Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, ²Xinglin College of Liaoning University of Traditional Chinese Medicine, ³Liaoning University of Traditional Chinese Medicine Affiliated Hospital

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dieses Protokoll implementiert ein U-förmiges Deep-Learning-Netzwerk, das Pinwheel-Konfaltung, Dual Attention und multiskalige Fusion integriert, um kolorektale Polypen zu segmentieren.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Eine genaue Segmentierung der kolorektalen Polypen ist entscheidend für die frühzeitige Prävention und Diagnose von Darmkrebs. Aufgrund der hohen Heterogenität der Polypen hinsichtlich Form, Größe und Textur sowie der Komplexität der Darmumgebung (wie Falten, spekulare Reflexionen und Kotreste) stehen bestehende Methoden jedoch weiterhin vor erheblichen Herausforderungen bei der Randlokalisierung und der Erkennung von kleinen Polypen. Um diese Probleme anzugehen, schlägt dieses Papier ein Polyp-Segmentierungsnetzwerk vor, das auf Pinwheel-Konvolution und Dual Attention (PWD-Net) basiert. Das vorgeschlagene Netzwerk verwendet eine U-förmige Encoder-Decoder-Architektur, bei der ein vortrainiertes ResNet als Encoder verwendet wird, um mehrstufige lokale Features zu extrahieren. Konkret wird an der Flaschenhalsschicht ein Pinwheel-Faltungsmodul (PCM) eingeführt, um die globale geometrische Struktur und multidirektionale kontextuelle Informationen von Polypen durch mehreckig rotierte Faltungskerne zu erfassen. Ein Dual-Attention-Mechanismus (DAM), der Kanal-Aufmerksamkeit und räumliche Aufmerksamkeit integriert, ist darauf ausgelegt, Hintergrundrauschen adaptiv zu unterdrücken und Polypen-Regionen-Merkmale zu verbessern. Darüber hinaus wird eine Multi-scale Feature Fusion (MSF)-Strategie eingesetzt, um tiefe semantische Informationen mit flachen Randdetails zu kombinieren und so sowohl Vollständigkeit als auch Präzision der Segmentierungsergebnisse sicherzustellen. Experimente an den Datensätzen Kvasir-SEG und CVC-ClinicDB zeigen, dass PWD-Net durchschnittliche Würfelkoeffizienten von 0,865 bzw. 0,944 sowie IoU-Werte von 0,765 bzw. 0,892 erreicht und damit bestehende State-of-the-Art-Methoden deutlich übertrifft. Ablationsstudien überprüfen die Wirksamkeit jedes Moduls, und Datensatz-übergreifende Bewertungen bestätigen die starke Verallgemeinerungsfähigkeit des Modells. Diese Studie bietet eine hochpräzise und robuste Lösung für die klinische Polypensegmentierung, bietet einen erheblichen Nutzen für die frühzeitige Diagnose kolorektaler präkanzeröser Läsionen und unterstützt computergestützte Interventionen.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Darmkrebs ist einer der häufigsten bösartigen Tumore weltweit und weist durchgehend hohe Inzidenz- und Sterblichkeitsraten auf. Studien haben gezeigt, dass die meisten Darmkrebserkrankungen durch adenomatöse Polypen entstehen, ein Prozess, der typischerweise 10–15 Jahre dauert und ein wertvolles Zeitfenster für frühzeitige Erkennung und Intervention bietet. Ein Anstieg der Adenom-Erkennungsrate (ADR) um 1 % kann das Risiko für Darmkrebs um etwa 3 % senken und die Patientensterblichkeit signifikant^senken. Die Koloskopie, die als Goldstandard für die Darmkrebsvorsorge gilt, ermöglicht die direkte Entfernung von Polypen während der Untersuchung und reduziert so die Krebshäufigkeit und Sterblichkeit effektiv.

Die konventionelle Koloskopie hängt jedoch stark von der Erfahrung und dem Können der Endoskopisten ab. Faktoren wie subjektives Urteil, visuelle Müdigkeit und Ablenkung können zu einer Fehlquote von 20 % bis 30 % führen, was die Effektivität des Screenings direkt beeinflusst². Daher ist die Entwicklung computergestützter Erkennungssysteme (CAD) zur automatischen Segmentierung kolorektaler Polypen von großer Bedeutung, um ADR zu verbessern und übersehene Diagnosen zu reduzieren. Jüngste klinische Umfragen haben zudem das Interesse an der Integration künstlicher Intelligenz in die Untersuchung endoskopischer Läsionen hervorgehoben, was die Notwendigkeit robuster und reproduzierbarer^{Segmentierungsmethoden} unterstreicht.

In den letzten Jahren hat Deep Learning bemerkenswerte Fortschritte in der medizinischen Bildanalyse erzielt, insbesondere bei konvolutionellen neuronalen Netzwerken (CNNs), die eine starke Fähigkeit zur Feature-Extraktion und -Darstellung für Bildsegmentierungsaufgaben zeigen⁴. Als klassisches Modell der medizinischen Bildsegmentierung verwendet U-Net eine symmetrische Encoder-Decoder-Architektur und überspringt Verbindungen, um eine genaue Pixel-Segmentierung zu erreichen, womit es zu einem Maßstab in diesem Bereich^wird. Aufbauend auf U-Net wurden viele verbesserte Architekturen vorgeschlagen, um komplexe Aufgaben der medizinischen Bildsegmentierung zu bewältigen. UNet++ verringert die semantische Lücke zwischen Encoder- und Decoder-Feature-Maps, indem es verschachtelte und dichte Skip-Verbindungen⁶ einführt. ResUNet++ integriert Residualblöcke, Quetsch- und Anregungsmodule, dilatierte Faltungen und Aufmerksamkeitsmechanismen und erzielt eine starke Leistung bei Polypensegmentierung⁷. U^2-Net verwendet eine zweistufe, verschachtelte U-förmige Struktur, um mehrskalige Feature-Informationen⁸ zu erfassen. In jüngerer Zeit wurde ein auf Doppel-Encoder-Decoder-basiertem Deep Polyp Segmentation Network vorgeschlagen, das parallele Codierungs- und Dekodierungspfade nutzt, um die Segmentierungsgenauigkeit^weiter zu verbessern.

Unterdessen bietet die Einführung von Aufmerksamkeitsmechanismen neue Lösungen zur Feature-Enhancement und Rauschunterdrückung. Aufmerksamkeits-U-Net verwendet Aufmerksamkeitsgatter, um sich auf Zielbereiche zu konzentrieren und dabei irrelevante Hintergrundinformationen zu unterdrücken¹⁰. Das Dual Attention Network (DANet) gewichtet adaptiv Features sowohl aus Kanal- als auch aus der räumlichen^{Dimension 11} und verbessert so die Wahrnehmung kritischer Merkmale. Triple Attention Networks (TANet) verbessern die Segmentierungsleistung weiter durch adaptive Auswahl von Multi-Scale-Funktionen¹².

Mit dem Erfolg von Transformer-Architekturen in der Verarbeitung natürlicher Sprachen und Computer Vision¹³ haben Forscher begonnen, deren Anwendungen in der Segmentierung medizinischer Bilder zu erforschen. TransUNet war das erste, das einen Transformator als Encoder einsetzte, um Langstreckenabhängigkeiten effektiv¹⁴ zu modellieren. Swin-UNet verwendet eine reine Transformer-Architektur und erreicht eine effiziente globale Informationsaggregation durch einen verschobenen Fenstermechanismus¹⁵. UTNet schlägt eine hybride Architektur vor, die die lokale Feature-Extraction-Fähigkeit von CNNs mit der globalen Modellierungsfähigkeit von Transformers¹⁶ kombiniert.

Im Bereich der Polypensegmentierung nutzt Polyp-PVT einen Pyramidenvision-Transformer, um multiskalige globale semantische Informationen¹⁷ zu erfassen, während multiskaliges verschachteltes UNet das kontextuelle Verständnis durch Integration von Transformers¹⁸ verbessert. Jüngste Studien haben auch negative Korrelationslernstrategien für domänenübergreifende Polypensegmentierung¹⁹, Gompertz-verstärkte Segmentierungsverbesserung²⁰ und aufmerksamkeitsbasierte Architekturen mit Randsteuerung²¹ untersucht. Obwohl diese Ansätze die Segmentierungsleistung bis zu einem gewissen Grad verbessern, steht die Polypensegmentierung weiterhin vor mehreren Herausforderungen. Erstens zeigen Polypen eine hohe Heterogenität in Morphologie, Größe und Textur, die von Mikropolypen kleiner als 5 mm bis zu großen Polypen von über 30 mm reichen, mit Formen von kreisförmigen und elliptischen bis hin zu sehr unregelmäßigen Formen. Zweitens ist die Darmumgebung komplex und variabel, wobei Schleimhautfalten, spiegelnde Reflexionen, Fäkalrückstände und Nahrungsmittelreste starke Hintergrundstörungen verursachen. Drittens haben viele Polypen verschwommene Grenzen, können teilweise durch Falten verdeckt oder in Darmflüssigkeiten eingetaucht sein, was die präzise Grenzlokalisierung äußerst^{schwierig macht}.

Bestehende Methoden weisen weiterhin klare Einschränkungen bei der Bewältigung dieser Herausforderungen auf. Traditionelle CNNs sind effektiv darin, lokale Textur- und Kantenmerkmale zu extrahieren; Allerdings eignen sich feste quadratische Faltungskerne nicht gut zur Erfassung verschiedener geometrischer Formen²³, insbesondere für hochgradig unregelmäßige Polypen, und können multidirektionale geometrische Merkmale nicht effektiv modellieren. Transformatorbasierte Methoden können globale Abhängigkeiten modellieren, sind jedoch weniger effektiv bei der Erfassung feiner lokaler Details und Randinformationen. Darüber hinaus macht ihre hohe Rechenkomplexität sie für Echtzeit-klinische Anwendungen^{weniger geeignet 24}. Jüngste Polypensegmentierungsansätze wie PraNet, das Reverse-Attention-Module zur Verfeinerung von Schlüsselregionen²⁵ verwendet, randgelenkte Kaskaden-Aufmerksamkeitsnetzwerke, die die Randfeature-Extraktion^{verbessern 26}, und CAFE-Net, das Encoder- und Decoder-Features durch Cross-Attention-Mechanismen^{fusioniert 27}, stoßen weiterhin auf unzureichende Merkmalsrepräsentation und ungenaue Randlokalisierung bei kleinen Polypen²⁸, verschwommene Grenzen und komplexe Hintergründe. Darüber hinaus vernachlässigen die meisten Methoden die geometrische Morphologie und nutzen multidirektionale kontextuelle Informationen nicht vollständig aus, was zu einer suboptimalen Segmentierung unregelmäßig geformter Polypen führt.

Zusammenfassend sind derzeit CNN-basierte Methoden nicht in der Lage, multidirektionale geometrische Merkmale zu erfassen, da sie auf Faltungskernen mit festen Quadraten angewiesen sind. Transformatorbasierte Ansätze bieten globale Modellierung, opfern jedoch die lokale Randgenauigkeit und verursachen hohe Rechenkosten. Unterdessen wurden bestehende aufmerksamkeitsverstärkte und multiskalige Fusionsstrategien nicht gemeinsam innerhalb eines einheitlichen Rahmens optimiert, der speziell auf Polypensegmentierung^{zugeschnitten ist 29}. Diese Lücken motivieren die Entwicklung einer Methode, die gleichzeitig geometrische Merkmalsmodellierung, adaptive Rauschunterdrückung und maßstabsübergreifende Merkmalsintegration berücksichtigt.

Um diese Probleme zu lösen, stellt dieses Protokoll ein Polyp Segmentation Network auf Basis von Pinwheel Convolution and Dual Attention (PWD-Net) vor. Das vorgeschlagene Netzwerk integriert geometrische Merkmalsmodellierung, mehrdimensionale Aufmerksamkeitssteigerung und mehrskalige Merkmalsfusion, was eine präzise Segmentierung komplexer Polypen ermöglicht. Die Hauptbeiträge dieser Arbeit werden wie folgt zusammengefasst: Das Pinwheel-Faltungsmodul (PCM), inspiriert von der Struktur eines Windrads, ein neuartiges rotiertes Faltungskern-Design wird vorgeschlagen, das multidirektionale geometrische Merkmale von Polypen durch Faltungsoperationen in mehreren Winkeln (0°, 45°, 90°, 135°, 180°, 225°, 270° und 315°) erfasst. Dieses Modul ersetzt die konventionelle Faltungsschicht im Engpassstadium, ermöglicht eine effektive Wahrnehmung unterschiedlicher Kantenorientierungen und verbessert die Darstellung unregelmäßig geformter Polypen erheblich. Der Dual-Attention-Mechanismus (DAM) adressiert Hintergrundrauschen wie Falten, Reflexionen und Kotreste in Koloskopiebildern. Ein Dual-Attention-Modul wird entwickelt, das Kanal-Aufmerksamkeit und räumliche Aufmerksamkeit integriert. In Skip-Verbindungen eingebettet, unterdrückt dieses Modul adaptiv Hintergrundinterferenzen und verbessert die Feature-Reaktionen in Polypenregionen, indem es gemeinsam identifiziert, "was" wichtig ist (Kanaldimension) und "wo" sich das Ziel befindet (räumliche Dimension), wodurch sichergestellt wird, dass bei der anschließenden Fusion nur verfeinerte Merkmale beteiligt sind. Die Multi-Scale Feature Fusion Strategy (MSF) bewahrt sowohl tiefe semantische Informationen als auch oberflächliche Randdetails durch einen hierarchischen Mechanismus, der im Decoder eingeführt wurde. Durch die schrittweise Integration von DAM-verbesserten Encoderfunktionen mit hochgemusterten Decoderfunktionen kompensiert diese Strategie effektiv den durch Downsampling verursachten räumlichen Detailverlust und ermöglicht so eine genaue Erkennung kleiner Polypen und eine präzise Grenzabgrenzung.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie verwendet ausschließlich öffentlich zugängliche, anonymisierte Koloskopie-Bilddatensätze (Kvasir-SEG). Es wurden keine neuen Daten aus menschlichen Probanden erhoben. Eine institutionelle Ethikgenehmigung und die informierte Patienteneinwilligung waren nicht erforderlich, wie die institutionellen Überprüfungsrichtlinien für retrospektive Analysen de-identifizierter öffentlicher Datensätze bestätigen.

1. Datenvorbereitung

Laden Sie den Kvasir-SEG-Datensatz aus dem offiziellen Repository33 (https://datasets.simula.no/kvasir-seg/) herunter. Der Datensatz enthält 1.000 Polypenbilder mit entsprechenden pixelbasierten Ground-Truth-Masken.
Teile den Datensatz zufällig in Trainingssets (800 Bilder), Validierung (100 Bilder) und Testset (100 Bilder) mit einem Verhältnis von 8:1:1 unter Verwendung eines festen Zufalls-Seed (Seed = 42). Überprüfen Sie, dass sich keine Bilder über die drei Teilmengen überschneiden, um Datenlecks zu verhindern.
Alle Bilder und zugehörigen Masken werden auf 352 x 352 Pixel vergrößert, wobei bilineare Interpolation für Bilder und Masken-Nest-Neighbor-Interpolation verwendet werden.
Normalisieren Sie die Pixelwerte auf [0, 1], indem Sie durch 255 teilen, und wenden Sie dann ImageNet-kanalweise Mittelabzug (0,485, 0,456, 0,406) und Standardabweichungsnormalisierung (0,229, 0,224, 0,225) an.
Wenden Sie folgende Augmentationstransformationen nur auf die Trainingsmenge an (nicht auf die Validierungs- oder Testmengen): zufälliger horizontaler Flip (Wahrscheinlichkeit = 0,5); zufälliger vertikaler Flip (Wahrscheinlichkeit = 0,5); Zufällige Rotation (Bereich: −30° bis +30°, Wahrscheinlichkeit = 0,5); Zufällige Multi-Scale-Größenänderung (Skalierungsfaktor: 0,75 bis 1,25, Wahrscheinlichkeit = 0,5)
HINWEIS: Wenden Sie identische räumliche Transformationen sowohl auf das Bild als auch auf die entsprechende Maske an, um die Ausrichtung aufrechtzuerhalten. Überprüfen Sie die Korrektheit der Augmentation, indem Sie mehrere augmentierte Bild-Masken-Paare visuell inspizieren, bevor Sie mit dem Training beginnen.

2. Gesamtarchitektur

HINWEIS: Siehe Abbildung 1 für das Makro-Encoder-Decoder-Backbone von PWD-Net und Abbildung 2 für die Integration und Interaktion der Kernmodule im Feature-Flow. Die Gesamtarchitektur folgt einem U-förmigen Encoder-Decoder-Design, um Skalenvariationen von Polypen und Hintergrundinterferenzen in Koloskopiebildern zu bewältigen.

Backbone und Kodierungspfad (Abbildung 1)
1. Verwenden Sie einen ResNet-50, der auf ImageNet vortrainiert ist (bezogen vom offiziellen PyTorch-Modellzoo), als Backbone-Encoder30. Feinjustiere alle Encoder-Schichten während des Trainings.
2. Führen Sie das Eingabe-Koloskopiebild (auf 352 x 352 Pixel verkürzt) durch fünf Stufen verbleibender Faltungsblöcke, um hierarchische Merkmale zu extrahieren. Die räumliche Auflösung von Feature-Maps wird schrittweise von zu über die fünf Stufen hinweg heruntergesampfelt, während die Kanaldimensionen entsprechend zunehmen (64 → 128 → 256 → 512 → 1024).
3. Am Engpass (der tiefsten Encoderschicht) ersetzen Sie die Standard-Faltungsschicht durch das Pinwheel-Faltungsmodul (PCM, beschrieben in Abschnitt 3), um die globale geometrische Morphologie und multidirektionale kontextuelle Informationen mit niedriger Auflösung zu erfassen.
  HINWEIS: Die fünf Encoder-Stufen entsprechen den Standard-ResNet-50-Schichtgruppen: conv1, layer1, layer2, layer3 und layer4. Vortrainierte Gewichte bieten eine robuste Initialisierung von Elementen auf niedriger und mittlerer Ebene und reduzieren die Konvergenzzeit bei kleinen medizinischen Datensätzen.
Schlüsselkomponenten und Merkmalswechselwirkungen (Abbildung 2 und Abbildung 3)
1. Wenden Sie den Dual-Attention-Mechanismus (DAM, beschrieben in Abschnitt 4) auf den Ausgang jeder Encoderstufe an, bevor Sie ihn über Skip-Verbindungen an den Decoder senden. Dieser Schritt unterdrückt adaptiv Hintergrundgeräusche, die durch Darmfalten und spekulare Reflexionen entstehen, während die Merkmalsreaktion in Polypenregionen gesteigert wird. Nur die gefilterten Features werden an die entsprechende Decoder-Schicht weitergegeben.
2. Im Decoder wird die räumliche Auflösung schrittweise durch bilineare Upsampling wiederhergestellt. An jeder Decoder-Schicht werden die hochgesampleten Features der vorherigen Decoderstufe mit den DAM-verbesserten Encoder-Features derselben räumlichen Auflösung verbunden.
3. Wenden Sie zwei aufeinanderfolgende Faltungsschichten an (jeweils gefolgt von Batch-Normalisierung und ReLU-Aktivierung), um die Multi-Skalen-Informationen zu fusionieren. Dies bildet die Multi-scale Feature Fusion (MSF)-Strategie, die in Abschnitt 5 beschrieben ist.
  HINWEIS: Der Decoder bewegt sich von tiefen zu flachen Schichten (Stufe 5 → Stufe 1) und stellt sicher, dass Informationen zur tiefen semantischen Lokalisierung und Details zu flachen Randdetails auf jeder Ebene effektiv integriert sind.
Ausgabegenerierung
1. Wenden Sie eine Faltungsschicht gefolgt von einer Sigmoid-Aktivierungsfunktion auf die endgültige Decoder-Ausgabe an, um die Vorhersagemaske zu erzeugen.
2. Binarisieren Sie die Vorhersagemaske mit einem Schwellenwert von 0,5, um das endgültige Segmentierungsergebnis zu erhalten, wobei Pixel mit einer vorhergesagten Wahrscheinlichkeit ≥ 0,5 als Polypen und die übrigen Pixel als Hintergrund klassifiziert werden.

3. Pinwheel-Faltungsmodul (Abbildung 3)

Das Pinwheel-Faltungsmodul (PCM) ersetzt die Standard-Flaschenhals-Faltung, um multidirektionale geometrische Merkmale von Polypen zu erfassen. Implementieren Sie dieses Modul wie folgt:
1. Definiere einen Basis-Faltungskern W der Größe 3 x 3 mit C_{in den} Eingangskanälen und C_{an den Ausgangskanälen} .
2. Definiere die Menge der Rotationswinkel Θ = {0°, 45°, 90°, ..., 315°}. Für jeden Winkel θ ∈ Θ erzeugt man den rotierten Kern W_θ , indem man eine bilineare interpolationsbasierte Rotation auf W anwendet. Alle acht rotierten Kernel teilen die gleichen Grundparameter; nur die räumliche Anordnung der Gewichte unterscheidet sich.
3. Für jeden Winkel θ berechnen Sie die richtungsspezifische Merkmalsabbildung:
  
  wobei X die Eingabe-Merkmalskarte ist.
4. Aggregieren Sie die acht Richtungsmerkmale durch kanalweise Verkettung entlang der Kanalachse, wodurch ein Tensor der Dimension (8 x C_außen) x H x W entsteht. Dann wenden Sie eine 1 x 1-Faltung an, um die Kanaldimension wieder auf_C-Out zu reduzieren, gefolgt von Batch-Normalisierung und ReLU-Aktivierung³¹:
  
  HINWEIS: Die Rotation und Interpolation erfolgen auf den Kernelgewichten und nicht auf der Eingabefeature-Karte. Dieses Design ermöglicht eine parametereffiziente, multidirektionale Feature-Extraktion, ohne die Eingabeauflösung zu erhöhen. In der aktuellen Implementierung gilt C_in = 1024 und C_out = 1024 in der Flaschenhalsphase, was der Ausgangskanaldimension der ResNet-50-Schicht4 entspricht. Siehe das ergänzende Codepaket für die vollständige Implementierung.

4. Dual-Aufmerksamkeits-Mechanismus (Abbildung 4)

HINWEIS: Der Dual-Attention-Mechanismus (DAM) ist in jede Skip-Verbindung eingebettet, um Hintergrundrauschen zu unterdrücken und Polypenregionenmerkmale sowohl in Kanal- als auch in räumlichen Dimensionen zu verbessern.

Kanal-Aufmerksamkeit
Der Kanal-Aufmerksamkeitszweig identifiziert, welche Feature-Kanäle am informativsten sind. Gegeben eine Eingabefunktion F ∈ R^C×H×W:
1. Komprimieren Sie die räumlichen Dimensionen mittels Global Average Pooling, um einen Kanalbeschreiber z ∈ R^C×1×1 zu erhalten.
2. Lassen Sie z durch ein zweischichtiges MLP (vollständig verbundene Schichten) mit einem Reduktionsverhältnis r = 16 durchlaufen. Die erste Schicht reduziert die Dimension von C auf C/16 mit ReLU-Aktivierung; die zweite Schicht stellt ihn von C/16 nach C mit Sigmoid-Aktivierung zurück, um den Kanalgewichtvektor A_c zu erzeugen:
  
  wobei δ ReLU und σ Sigmoid bezeichnet.
Räumliche Aufmerksamkeit
Der räumliche Aufmerksamkeitszweig lokalisiert, wo sich die Zielregionen befinden:
1. Wende sowohl Max-Pooling als auch Average Pooling entlang der Kanaldimension an, um zwei 2D-Merkmalsabbildungen von Größe 1 x H x W zu erzeugen.
2. Verkette die beiden Abbildungen entlang der Kanalachse, um einen 2 x H x W Tensor zu bilden. Wenden Sie eine 7 x 7 große Faltungsschicht an, gefolgt von Sigmoid-Aktivierung, um die räumliche Gewichtskarte A_s ∈ R^1×H×W zu erzeugen:
Merkmalsfusion
1. Verschmelzen Sie die Kanal- und räumlichen Aufmerksamkeitsausgaben mit der Eingangsfunktion durch elementweise Multiplikation:
  
  wobei α und β lernbare Balancekoeffizienten sind, die beide auf 0,5 initialisiert und während des Trainings gemeinsam mit den Netzwerkparametern per gradientenbasierter Optimierung aktualisiert werden.
  HINWEIS: Siehe das ergänzende Codepaket (dam_module.py) für die vollständige Implementierung.

5. Multi-Scale Feature Fusion

Wenden Sie die Multi-Scale Feature Fusion (MSF)-Strategie im Decoder an, um den räumlichen Detailverlust in tiefen Features zu adressieren. In jeder Decoder-Phase führen Sie Folgendes aus:
Erhöhe die Merkmalsabbildung aus der vorhergehenden Decoder-Stufe um den Faktor 2 mittels bilinearer Interpolation.
Verketten Sie die hochgemusterten Merkmale mit den DAM-verbesserten Encodermerkmalen der entsprechenden räumlichen Auflösung entlang der Kanalachse.
Wenden Sie zwei aufeinanderfolgende 3 x 3 Faltungsschichten an (jeweils gefolgt von Batch-Normalisierung und ReLU-Aktivierung³²), um die verketteten Merkmale zu verschmelzen.
HINWEIS: Diese ebenenübergreifende Fusion stellt sicher, dass die Randdetails von Polypen (bereitgestellt durch flache Encodermerkmale) und semantischer Lokalisierung (bereitgestellt durch tiefe Features) gleichzeitig erhalten bleiben, was feinkörnige Segmentierungsergebnisse erzeugt.

6. Verlustfunktion und Trainingskonfiguration

Verlustfunktion
1. Eine hybride Verlustfunktion L_total verwendet wird, um das Netzwerk gemeinsam zu optimieren und so das allgegenwärtige Ungleichgewicht zwischen Vordergrund und Hintergrund bei der Polypensegmentierung zu beheben.
  Binärer Kreuzentropieverlust (L_BCE) misst die Klassifikationsgenauigkeit auf Pixelebene:
  
  wobei N die Gesamtzahl der Pixel ist, y_i ∈ {0,1} das Grundwahrheitslabel und ŷ_i ∈ [0,1] die vorhergesagte Wahrscheinlichkeit.
2. Dice Loss (L_Dice) quantifiziert die Mengenähnlichkeit zwischen den vorhergesagten und den Grundwahrheitsregionen:
  
  wobei ε ein Glättungsfaktor ist (auf 1 x 10⁻⁵ gesetzt), um eine Division durch Null zu vermeiden.
  Setze λ = 0,5, um die Beiträge der beiden Verlustterme auszugleichen.
Ausbildungskonfiguration
1. Initialisieren Sie den Encoder mit ImageNet-vortrainierten ResNet-50-Gewichten. Initialisieren Sie alle Decoder-Schichten, PCM- und DAM-Parameter mit der Kaiming-Uniforminitialisierung.
2. Konfigurieren Sie den Optimierer und den Trainingsplan wie folgt. Verwenden Sie den Adam-Optimierer mit β₁ = 0,9 und β₂ = 0,999. Stelle die anfängliche Lernrate auf 1 x 10⁻⁴ ein. Wenden Sie einen Koordinatus-Annealing-Lernratenplan mit T_max = 50 und η_min = 1 x 10⁻⁶ an. Verwenden Sie eine Chargengröße von 16 und trainieren Sie das Modell für 50 Epochen.
3. Trainiere das Modell auf 50 Epochen auf dem Trainingsset (800 Bilder). Am Ende jeder Epoche wird das Modell anhand der Validierungsmenge (100 Bilder) unter Verwendung des Dice-Koeffizienten als primäre Überwachungsmetrik bewertet.
4. Speichere den Modell-Checkpoint, der den höchsten Würfelkoeffizienten im Validierungssatz erreicht. Verwenden Sie diesen Checkpoint als Endmodell für alle nachfolgenden Bewertungen auf dem Testset.
  HINWEIS: Frühzeitiges Stoppen wird nicht ausdrücklich angewendet. Die Checkpoint-Auswahlstrategie mit der besten Validierung dient als Kriterium für die Modellauswahl. Alle Experimente werden in der in der Materialtabelle angegebenen Hardware- und Softwareumgebung durchgeführt. Das Training für 50 Epochen auf 800 Bildern dauert unter der beschriebenen Konfiguration etwa 2 Stunden. Alle gemeldeten Ergebnisse werden aus einem einzelnen Trainingslauf mit dem angegebenen zufälligen Seed (Seed = 42) gewonnen. Siehe das ergänzende Codepaket für das vollständige Trainingsskript.

7. Pseudocode

Verwenden Sie Algorithmus 1 als vollständige Workflow-Karte für PWD Net. Gleiche die PCM-, DAM-, Hauptarchitektur- und Trainingspipeline-Blöcke im Algorithmus mit den entsprechenden Dateien im ergänzenden Codepaket ab.
Implementiere den PCM-Block, der in den Zeilen 4 bis 12 gezeigt ist. Definieren Sie einen Basis-3x3-Faltungskern und erzeugen Sie acht rotierte Kernel bei 0°, 45°, 90°, 135°, 180°, 225°, 270° und 315° mittels bilinearer Interpolation.
Behalte für alle rotierten PCM-Kernel die gleichen lernbaren Basisparameter. Für jeden Drehwinkel berechnen Sie eine richtungsspezifische Merkmalskarte.
Verbinden Sie die acht PCM-Feature-Karten entlang der Kanaldimension. Wenden Sie eine 1 x 1 Konvolution, Batch-Normalisierung und ReLU-Aktivierung an, um die ursprüngliche Kanaldimension wiederherzustellen.
Implementiere den DAM-Block, der in den Zeilen 14 bis 19 gezeigt wird. Wenden Sie Global Average Pooling an, um den Kanaldeskriptor zu erzeugen, und leiten Sie ihn dann durch ein zweischichtiges MLP mit einem Reduktionsverhältnis von 16, um Kanalgewichte zu erhalten.
Generiere die räumliche Aufmerksamkeitskarte, indem du kanalweise Average Pooling und Max-Pooling auf die Eingabefunktion anwendest. Verbinden Sie die beiden Karten und verarbeiten Sie sie mit einer 7 x 7 Konvolution gefolgt von einer Sigmoid-Aktivierung.
Verbinde den DAM-Kanal und die räumlichen Aufmerksamkeitsausgaben mit der Eingangsfunktion mittels elementweiser Multiplikation. Gewichte die beiden Aufmerksamkeitskarten mit lernbaren Koeffizienten α und β, beide initialisiert auf 0,5.
Baue die Haupt-PWD-Net-Architektur, wie sie in den Zeilen 21 bis 32 gezeigt wird. Das Eingabebild wird durch fünf Stufen eines vortrainierten ResNet-50-Encoders geleitet, um e1 bis e5 zu erhalten, wobei die räumliche Auflösung von H x W auf H/32 x W/32 abnimmt.
Trage PCM auf E5 an der Engstelle an. Wenden Sie DAM auf e1 bis e4 an, bevor Sie diese Funktionen über Skip-Verbindungen an den Decoder senden.
Entschlüssele die Merkmalskarte von tiefen zu flachen Schichten. Auf jeder Decoder-Ebene wird die vorherige Funktion hochgesampelt, mit der entsprechenden DAM-erweiterten Encoder-Funktion verknallt und DoubleConv für die Funktionsfusion angewendet.
Generiere die Segmentierungsausgabe mit einer 1 x 1-Faltung gefolgt von einer Sigmoid-Aktivierung. Verwenden Sie die resultierende pixelweise Wahrscheinlichkeitsabbildung als vorhergesagte Maske.
Implementieren Sie die in den Zeilen 34 bis 39 gezeigte Trainingsschleife. In jeder Epoche führt man die Vorwärtsausbreitung über das PWD Net durch und berechnet die vorhergesagte Maske.
Berechne den Trainingsverlust als 0,5 x BCE-Verlust plus 0,5 x Würfelverlust. Aktualisieren Sie alle lernbaren Parameter mit dem Adam-Optimierer durch Backpropagation.

Algorithmus 1: PWD-Net-Polypensegmentierung
1: Eingabe: Koloskopie-Bild I ∈ R^H×W×3
2: Ausgabe: Segmentierungsmaske M ∈ {0,1}^(H×W)
3:
4: Funktion PCM(X) ▷ Pinwheel-Faltungsmodul
5: Definiere den Basiskern W (3 x 3), Winkel Θ = {0°, 45°, ..., 315°}
6: für jedes θ ∈ Θ tun
7: W_θ ← BilinearRotate(W, θ) ▷ Rotate Kernel
8: Y_θ ← Conv2d(X, W_θ) ▷ Richtungsspezifische Merkmale
9: Ende für
10: Y_out ← ReLU(BN(Conv1 x 1(Concat({Y_θ})))) ▷ Aggregate
11: Y_zurück
12: Funktion beenden
13:
14: Funktion DAM(F) ▷ Dual-Aufmerksamkeitsmechanismus
15: A_c ← Sigmoid(MLP(AvgPool(F))) ▷ Kanal-Aufmerksamkeit (r=16)
16: A_s ← Sigmoid(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Räumliche Aufmerksamkeit
17: F' ← F ⊗ (α · A_c + β · A_s) ▷ Verschmelzen mit lernbarer α, β (init=0.5)
18: Rückkehr F'
19: Funktion beenden
20:
21: Funktion PWD-Net(I)
22: Encoder: e₁, e₂, e₃, e₄, e₅ ← ResNet50_Stages(I) ▷ 5-stufiger vortrainierter Encoder
23: Engpass: b ← PCM(e₅) ▷ PCM am Engpass anwenden
24: Überspringverbindungen: s_i ← DAM(e_i) für i = 1, 2, 3, 4 ▷ Funktionen des Filter-Encoders
25: Decoder:
26: d₄ ← DoubleConv(Concat(Up(b), s₄))
27: D₃ ← DoubleConv(Concat(Up(D₄), S₃))
28: Sieg₂ ← Doppelkonv (Concat (Oben_{(D 3}), S.₂))
29: Sieg₁ ← DoubleConv(Concat(Up(D₂), S_{. 1}))
30: M ← Sigmoid (Konv1 x 1(d₁))
31: Rückkehr M
32: Funktion beenden
33:
34: Training:
35: Für jede Epoche tun Sie
36: M̂ ← PWD-Net(I)
37: L ← 0,5 · BCE(M̂, M_gt) + 0,5 · DiceLoss(M̂, M_gt) ▷ λ = 0,5

38: Aktualisieren Sie Parameter über Backpropagation (Adam optimizer)
39: Ende für

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Versuchsaufbau
Datensatz

Der Kvasir SEG-Datensatz wurde verwendet, um das Segmentierungsverhalten von PWD Net auf Koloskopiebildern mit heterogenen Polypenerscheinungen zu bewerten. Der Datensatz enthält 1.000 Pixel annotierte Polypenbilder und beinhaltet Variationen in Polypengröße, Form, Textur, Beleuchtung und Hintergrundkomplexität, was ihn geeignet macht, um Kleinzielerkennung, Randlokalisierung und Robustheit gegenüber visuellen Interferenzen zu bewerten. Der Datensatz wurde in Trainings-, Validierungs- und Testuntergruppen unterteilt, und der endgültige Testsatz wurde ausschließlich für die Leistungsbewertung verwendet. Die Verteilung der Bilder ist in Tabelle 1 zusammengefasst.

Implementierungsdetails

Die für die Reproduzierbarkeit erforderlichen Implementierungseinstellungen sind in Tabelle 2 zusammengefasst, und die vollständigen prozeduralen Details werden in den Datenvorbereitungsschritten und Abschnitt 5.2 des Protokolls bereitgestellt. Zur Interpretation der Ergebnisse verwendeten alle gemeldeten Experimente dieselbe Eingabeauflösung, Hardwareumgebung und Bewertungsbedingungen wie in der Materialtabelle. Die gemeldeten Werte basieren auf dem ausgewählten Validierungswürfel-Checkpoint eines einzelnen Durchlaufs mit Seed = 42, daher sollten die Ergebnisse als Leistung unter einer festen experimentellen Aufteilung interpretiert werden und nicht als gemittelte Kreuzvalidierungsergebnisse.

Bewertungsmetriken

Die Segmentierungsleistung wurde anhand des Würfelkoeffizienten, Intersection over Union, Pixelgenauigkeit und Inferenzgeschwindigkeit bewertet. Würfelkoeffizient und Schnitt über Union wurden als primäre überlappungsbasierte Metriken verwendet, da sie direkt die Übereinstimmung zwischen der vorhergesagten Maske und der von Experten annotierten Polypenregion widerspiegeln. Die Genauigkeit auf Pixelebene wurde als ergänzende Maßnahme angegeben, da Koloskopiebilder oft große Hintergrundbereiche enthalten. Die Inferenzgeschwindigkeit, angegeben als Bilder pro Sekunde, wurde einbezogen, um zu bewerten, ob das Modell die praktische Recheneffizienz beibehält und gleichzeitig die Segmentierungsqualität verbessert.

Vergleich mit bestehenden Methoden
Um das Verhalten und die Wirksamkeit von PWD-Net zu demonstrieren, wird ein Vergleich mit fünf repräsentativen Polypensegmentierungsmethoden durchgeführt: CBSA (Channel-Boosted Spatial Attention network)³⁴, FSSA (Feature-Shared Spatial Attention network), MSF (Multi-Scale Fusion network), Pinwheel-Conv (Pinwheel Convolution Baseline ohne Aufmerksamkeits- oder Fusionsmodule) und PolaLinear (Polarized Linear Attention network). Alle Vergleichsmethoden werden mit ihren offiziell veröffentlichten Quellcodes neu implementiert und auf demselben Kvasir-SEG-Trainingsset (800 Bilder) unter identischer Vorverarbeitung, Eingabeauflösung (352 x 352) und Bewertungseinstellungen trainiert, um einen fairen Vergleich sicherzustellen. Tabelle 3 zeigt die quantitativen Ergebnisse des Testsatzes.

Wie in Tabelle 3 gezeigt, erreicht PWD-Net einen Würfelkoeffizienten von 0,865 und ein IoU von 0,765, was Verbesserungen von 1,8 % bei Würfeln und 4,8 % bei IoU im Vergleich zur nächstbesten Methode (CBSA) darstellt. Bemerkenswert ist, dass PWD-Net dies mit 9,1 Millionen Parametern erreicht, verglichen mit 18,4 Millionen für CBSA, was auf eine günstige Effizienz hinweist. Während PolaLinear und Pinwheel-Conv höhere Inferenzgeschwindigkeiten (79 bzw. 72 FPS) bieten, ist ihre Segmentierungsgenauigkeit deutlich geringer, was darauf hindeutet, dass PWD-Net ein angemessenes Gleichgewicht zwischen Genauigkeit und Rechenaufwand für den bewerteten Datensatz bietet. Um das qualitative Segmentierungsverhalten zu veranschaulichen, werden fünf repräsentative Testproben ausgewählt, die kleine Polypen, große Polypen, komplexe Hintergründe und verschwommene Grenzen abdecken, um visuell zu vergleichen. Abbildung 5 zeigt die Segmentierungsergebnisse von vier ausgewählten Vergleichsmethoden (CBSA, FSSA, MSF und PWD-Net) zusammen mit der Ground Truth. Jede Vorhersagespalte ist mit dem entsprechenden Methodennamen beschriftet. Pinwheel-Conv und PolaLinear sind aus dieser Abbildung für die visuelle Klarheit weggelassen, da ihre quantitative Leistung deutlich niedriger ist; diese Abbildung stellt daher eine ausgewählte Teilmenge der in Tabelle 3 verglichenen Methoden dar.

Wie in Abbildung 5 gezeigt, zeigen FSSA und MSF in Szenarien mit kleinen Polypen (erste und fünfte Reihen) verpasste Erkennungen, während PWD-Net die Ziele vollständiger erfasst. In Szenarien mit großen Polypen (zweite und dritte Zeile) erzeugen CBSA und FSSA auffällige Randunregelmäßigkeiten, während PWD-Net glattere Grenzen erzeugt. Im Szenario mit verschwommener Grenze (vierte Zeile) demonstriert PWD-Net eine effektive Unterdrückung von Hintergrundrauschen mittels des Dual-Attention-Mechanismus.

Ablationsstudie
Um den Beitrag jeder Kernkomponente in PWD-Net zu analysieren, wird eine systematische Ablationsstudie durchgeführt. Mit ResNet-50 als Backbone-Encoder für das Basismodell werden das Pinwheel Convolution Module (Pinwheel), der Dual-Attention Mechanism (Dual-Attn) und das Multi-Scale Feature Fusion (MSF) Modul schrittweise integriert. Tabelle 4 fasst die quantitativen Ergebnisse zusammen.

Die wichtigsten Ergebnisse aus Tabelle 4 lassen sich wie folgt zusammenfassen. Erstens verbessert das Hinzufügen eines einzelnen Moduls die Leistung des Basismodells. Der Dual-Attention-Mechanismus bringt die auffälligsten Gewinne (Würfel: +2,0 %, IoU: +2,7 %) und unterstützt die Wirksamkeit der adaptiven Rauschunterdrückung. Das Pinwheel-Faltungsmodul trägt zu einer Verbesserung von 1,6 % bei Dice bei, was auf den Vorteil der multidirektionalen Merkmalsextraktion für unregelmäßige Polypenformen hinweist. Zweitens erhöht die Kombination des Pinwheel-Konvolutions- und Dual-Attention-Mechanismus die Leistung weiter auf Dice = 0,858 und IoU = 0,748, was auf Komplementarität zwischen den beiden Modulen hindeutet. Schließlich erzielt das vollständige PWD-Net (mit Integration aller drei Module) die beste beobachtete Leistung (Dice = 0,865, IoU = 0,765), mit Verbesserungen von 3,3 % bzw. 6,0 % im Vergleich zum Baseline, was den Beitrag jeder vorgeschlagenen Komponente zu diesem Datensatz zeigt.

Trainingsprozessanalyse
Um die Trainingsdynamik und Konvergenzmerkmale von PWD-Net zu veranschaulichen, werden wichtige Leistungskennzahlen über 50 Trainingsphasen aufgezeichnet und visualisiert. Abbildung 6 zeigt die Variationen der Verlustfunktion, des Würfelkoeffizienten, des IoU und der Genauigkeit während des Trainings.

Wie in Abbildung 6(a) dargestellt, nehmen sowohl der Trainingsverlust als auch der Validierungsverlust innerhalb der ersten 10 Epochen schnell ab und stabilisieren sich dann allmählich. Der Validierungsverlust bleibt etwas höher als der gesamte Trainingsverlust, aber die beiden Kurven folgen einem konstanten Trend mit einer kleinen Lücke, was darauf hindeutet, dass das Modell nicht unter starkem Overfitting leidet. Abbildung 6(b) zeigt, dass der Würfelkoeffizient in der frühen Trainingsphase stark ansteigt, nach etwa der 30. Epoche konvergiert und sich über 0,86 stabilisiert. Die IoU-Kurve in Abbildung 6(c) zeigt einen ähnlichen Wachstumstrend und erreicht in der späten Trainingsphase etwa 0,765. Abbildung 6(d) zeigt, dass die Genauigkeit über 94 % konvergiert. Die stabilen Validierungstrends in den mittleren und späten Trainingsphasen deuten darauf hin, dass die übernommene Datenerweiterungsstrategie und der Kosinus-Annealing-Plan zur Abmilderung des Overfittings auf diesem Datensatz beitragen.

Leistung über Polypengrößen hinweg
Um die Anwendbarkeit von PWD-Net in verschiedenen klinischen Szenarien weiter zu bewerten, wird der Testsatz (100 Bilder) entsprechend dem Verhältnis von Polypenfläche zur Gesamtbildfläche in drei Kategorien unterteilt: kleine Polypen (< 5 %), mittlere Polypen (5–30 %) und große Polypen (> 30 %). Diese Klassifikation spiegelt den Einfluss der Polypenskala auf die Segmentierungsschwierigkeit wider. Tabelle 5 zeigt die quantitative Leistung jeder Kategorie. Wie in Tabelle 5 gezeigt, erzielt PWD-Net die beste Leistung in der Kategorie Mittelpolypen (Würfel = 0,882, IoU = 0,790), was mit der größeren Darstellung dieser Kategorie (54 von 100 Testbildern) übereinstimmt. Die Leistung bei großen Polypen bleibt auf einem vergleichbaren Niveau (Würfel = 0,861, IoU = 0,760). Die Leistung bei kleinen Polypen ist relativ geringer (Dice = 0,812, IoU = 0,685), hauptsächlich weil kleine Ziele nur einen kleinen Bildanteil einnehmen und mit spärlicheren Randinformationen anfälliger für Hintergrundrauschen sind.

Diese Ergebnisse deuten darauf hin, dass die multidirektionale Merkmalserfassungsfähigkeit des Pinwheel-Konvolutionsmoduls und die räumliche Lokalisierungsfähigkeit des Dual-Attention-Mechanismus dazu beitragen, eine angemessene Segmentierungsqualität über verschiedene Polypenskalen im bewerteten Testsatz zu gewährleisten.

figure-results-1
Abbildung 1: Rahmenwerk des PWD-Net-Modells. Gesamtstruktureller Rahmen des vorgeschlagenen Polyp Segmentation Network basierend auf Pinwheel Convolution and Dual Attention (PWD-Net), veranschaulicht den Encoder (ResNet-50), den Flaschenhals (PCM), DAM-verstärkte Skip-Verbindungen, MSF-Decoder und die Ausgabegenerierung für die kolorektale Polypensegmentierung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

figure-results-2
Abbildung 2: Gesamtarchitektur-Flussdiagramm von PWD-Net. Detailliertes Flussdiagramm der vollständigen PWD-Net-Architektur, das den fünfstufigen ResNet-50-Encoder, den PCM-Flaschenhals, DAM-Skip-Verbindungen, den Multi-Scale-Feature-Fusion-Decoder und die finale Vorhersagegenerierung zeigt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

figure-results-3
Abbildung 3: Schematisches Diagramm des Pinwheel-Faltungsmoduls. Struktureller und betrieblicher Schaltplan des Pinwheel-Faltungsmoduls, der mehrfachwinkelgedrehte Faltungskerne, bilineare interpolationsbasierte Rotation, Kanalverkettung und 1 x 1 Faltungsaggregation demonstriert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

figure-results-4
Abbildung 4: Strukturdiagramm des Dual-Attention-Mechanismus. Architekturdiagramm des DAM, das den parallelen Kanal-Aufmerksamkeitszweig (Global Average Pooling → MLP mit Reduktionsverhältnis r = 16 → Sigmoid) und den räumlichen Aufmerksamkeitszweig (kanalweise Pooling → 7 x 7 Faltung → Sigmoid) zeigt, gefolgt von gewichteter Fusion mit lernbaren Koeffizienten α und β. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

figure-results-5
Abbildung 5: Qualitativer Vergleich der Segmentierungsergebnisse. Jede Zeile stellt eine Testprobe dar. Spalten von links nach rechts: Eingabebild, Ground Truth, CBSA, FSSA, MSF und PWD-Net (Ours). Pinwheel-Conv und PolaLinear sind aus dieser Abbildung für die visuelle Klarheit weggelassen; siehe Tabelle 3 für den vollständigen quantitativen Vergleich. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

figure-results-6
Abbildung 6: Trainingskurven des PWD-Net über 50 Epochen. (a) Trainings- und Validierungsverlust. (b) Würfelkoeffizient. (c) Kreuzung über Union (IoU). (d) Genauigkeit auf Pixelniveau. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Trainingsuntermenge	Anzahl der Stichproben	Proportion
Zugset	800	80%
Validierungsmenge	100	10%
Testset	100	10%
Gesamtset	1000	100%

Tabelle 1: Datensatzstatistiken. Datensatz-Split-Verteilung für den Kvasir-SEG-Datensatz (insgesamt 1.000 Bilder), die die Anzahl der Bilder und den Anteil der Trainings-, Validierungs- und Testteilmengen anzeigt (zufälliger Seed = 42).

Kategorie	Parameter-Element	Parametereinstellung
Deep-Learning-Framework	Rahmenwerk	PyTorch
Hardware-Umgebung	GPU	NVIDIA Tesla P100
Beschleunigungsmethode	GPU-Beschleunigung	CUDA
Eingabeeinstellungen	Eingabebildgröße	352 × 352
Bildformat	Bildformat	RGB-Bild
Optimierer	Optimierer	Adam
Anfängliche Lernrate	Initiales LR	1 × 10⁻⁴
Chargengröße	Chargengröße	16
Ausbildungsepochen	Epochen	50
Verlustfunktion	Verlustfunktion	Würfelverlust + v. Chr.

Tabelle 2: Experimentelle Parametereinstellungen. Experimentelle Parametereinstellungen für PWD-Net-Training und -Evaluation. Siehe die Schritte zur Datenvorbereitung und Abschnitt 5.2 des Protokolls für das vollständige Schritt-für-Schritt-Implementierungsverfahren.

Methode	Würfel ↑	IoU ↑	Genauigkeit ↑	Parameter (M) ↓	FPS ↑
CBSA	0.8466	0.717	0.9325	18.4	36
FSSA	0.7109	0.551	0.9012	9.8	61
MSF	0.7337	0.585	0.9086	11.5	54
Pinwheel-Conv	0.8007	0.6742	0.9401	7.9	72
PolaLinear	0.7213	0.5707	0.9113	6.6	79
PWD-Net (Uns)	0.865	0.7651	0.9478	9.1	63

Tabelle 3: Quantitative Vergleichsergebnisse. Quantitativer Vergleich von PWD-Net mit fünf bestehenden Polypensegmentierungsmethoden auf dem Kvasir-SEG-Testsatz (100 Bilder). Alle Methoden werden unter identischer Datenaufteilung, Vorverarbeitung und Eingabeauflösung (352 x 352) ausgewertet. ↑ zeigt an, dass höher besser ist; ↓ zeigt an, dass niedriger besser ist. Methoden, die mit * gekennzeichnet sind, zeigen Ergebnisse aus der ursprünglichen Veröffentlichung an, anstatt neu implementiert zu werden.

Konfiguration	Pinwheel	Dual-Attn	MSF	Würfel ↑	IoU ↑
Basislinie	×	×	×	0.832	0.705
+ Pinwheel	√	×	×	0.848	0.725
+ Dual-Attn	×	√	×	0.852	0.732
+ MSF	×	×	√	0.844	0.72
+ Pinwheel + Dual-Attn	√	√	×	0.858	0.748
Voll (PWD-Net)	√	√	√	0.865	0.765

Tabelle 4: Ergebnisse der Ablationsstudie. Ablationsstudienergebnisse auf dem Kvasir-SEG-Testsatz zeigen den inkrementellen Beitrag des Pinwheel Convolution Module (Pinwheel), des Dual-Attention Mechanism (Dual-Attn) und der Multi-Scale Feature Fusion (MSF) zum Basis-ResNet-50-Encoder.

Polypentyp	Anzahl	Würfel ↑	IoU ↑
Kleine Polypen (< 5 %)	21	0.812	0.685
Mittlere Polypen (5 %–30 %)	54	0.882	0.79
Große Polypen (> 30 %)	25	0.861	0.76

Tabelle 5: Leistung des PWD-Netzes bei verschiedenen Polypentypen. Leistung von PWD-Net auf verschiedenen Polypengrößenkategorien innerhalb des Kvasir-SEG-Testsets (100 Bilder). Die Polypengröße wird durch das Verhältnis von Polypenfläche zur Gesamtbildfläche definiert.

Ergänzende Datei: Komprimiertes Archiv, das die Implementierung des PWD-Net-Frameworks enthält. Die Datei beinhaltet model.py Definition der Netzwerkarchitektur mit dem Pinwheel Convolution Module (PCM) und dem Dual-Attention Mechanism (DAM), train.py Implementierung der Datenladepipeline, der Verlustfunktion und des Trainingsverfahrens, test.py für Modellinferenz und -auswertung auf Testdatensätzen sowie requirements.txt Auflistung aller erforderlichen Python-Bibliotheken und deren entsprechenden Versionen. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Mehrere Designentscheidungen im PWD-Net-Protokoll sind entscheidend für die Erzielung zuverlässiger Segmentierungsergebnisse und erfordern sorgfältige Aufmerksamkeit während der Implementierung. Erstens beeinflusst die Auswahl und Initialisierung des Encoder-Backbone direkt das Konvergenzverhalten und die Endleistung. Das Protokoll verwendet einen ResNet-50-Encoder, der auf ImageNet vortrainiert ist und eine robuste Low-Level- und Mid-Level-Feature-Initialisierung ermöglicht. Dies ist besonders wichtig für medizinische Bildsegmentierungsaufgaben, bei denen die verfügbaren Trainingsdaten begrenzt sind (800 Bilder in der vorliegenden Studie). Das Feinabstimmen aller Encoder-Schichten, anstatt sie einzufrieren, ermöglicht es dem Netzwerk, die vortrainierten Merkmale an die spezifischen Eigenschaften von Koloskopiebildern wie schleimhautige Texturen und spekulare Reflexionen anzupassen. Zweitens ist die Platzierung jedes Kernmoduls innerhalb der Architektur bewusst. Das Pinwheel-Faltungsmodul (PCM) befindet sich am Engpass, wo die räumliche Auflösung am niedrigsten, aber die semantische Information am reichhaltigsten ist, was eine effiziente Erfassung globaler geometrischer Muster ohne übermäßige Rechenkosten ermöglicht. Der Dual-Attention-Mechanismus (DAM) ist in die Skip-Verbindungen und nicht im Decoder eingebettet, um sicherzustellen, dass Hintergrundrauschen vor der Übertragung von Features an den Decoder unterdrückt wird und so verhindert, dass kontaminierte Elemente durch die Fusionsstufen gelangen. Die Ablationsstudie (Tabelle 4) unterstützt dieses Design: Der DAM trägt den größten individuellen Leistungszuwachs bei (Würfel: +2,0 %), was die Bedeutung der frühen Rauschunterdrückung in der Feature-Pipeline bestätigt. Drittens die hybride Verlustfunktion (0,5 · BCE + 0,5 · Dice) balanciert die Genauigkeit der Pixel-Klassifikation mit der Überlappungsoptimierung auf Regionsebene. Diese Kombination ist besonders relevant für die Polypensegmentierung, wo ein Klassenungleichgewicht zwischen Vordergrund und Hintergrund häufig vorkommt. Die gleiche Gewichtung (λ = 0,5) wird standardmäßig übernommen; eine Anpassung dieses Verhältnisses kann für Datensätze mit unterschiedlichen Klassenverteilungen notwendig sein (siehe Fehlerbehebung unten).

Modifikationen und Fehlerbehebung
Die folgenden Modifikationen und Fehlerbehebungsrichtlinien werden bereitgestellt, um das Protokoll an verschiedene experimentelle Umgebungen anzupassen. Bei der Anwendung des Protokolls auf Datensätze mit unterschiedlichen Bildauflösungen oder Polypengrößenverteilungen muss die Eingabeauflösung (352 x 352) möglicherweise angepasst werden. Größere Eingabegrößen können die Erkennung kleiner Polypen verbessern, allerdings auf Kosten eines erhöhten Speicherverbrauchs und einer verringerten Inferenzgeschwindigkeit. Wenn der Trainingsverlust nicht innerhalb von 50 Epochen konvergiert, sollten Sie erwägen, die anfängliche Lernrate zu reduzieren (z. B. auf 5 x 10⁻⁵) oder die Länge des Kosinus-Annealing-Zyklus zu erhöhen. Wenn das Modell hohe Falsch-Positiv-Raten in Regionen mit starken spiegelnden Reflexionen oder schleimhautigen Falten aufweist, kann eine Erhöhung des Gewichts der Würfelverlustkomponente (z. B. λ = 0,4 für BCE, 0,6 für Dice) die Randgenauigkeit auf Kosten der Pixelgenauigkeit verbessern. Umgekehrt kann eine Erhöhung des BCE-Gewichts helfen, wenn das Modell kleine Polypen untersegmentiert. Die Anzahl der Drehwinkel im PCM (derzeit acht, von 0° bis 315° in 45°-Schritten) stellt ein Gleichgewicht zwischen der Richtungsabdeckung und den Rechenkosten dar. Die Reduzierung auf vier Winkel (0°, 90°, 180°, 270°) verringert die Berechnung, kann aber die Empfindlichkeit gegenüber schrägen Polypengrenzen verringern. Das Reduktionsverhältnis r = 16 im Kanal-Aufmerksamkeitszweig des DAM folgt der Konvention, die von vorherigen Quetsch- und Anregungsnetzwerken³² etabliert wurde; Kleinere Verhältnisse (z. B. r = 8) erhöhen die Modellkapazität, können aber zu Überanpassung bei kleinen Datensätzen führen. Für Datensätze, die deutlich größer sind als Kvasir-SEG, sollten Sie erwägen, die Batchgröße und die Trainingsphasen entsprechend zu erhöhen und die Validierungsmetriken zu überwachen, um den geeigneten Stopppunkt zu bestimmen.

Bedeutung im Vergleich zu alternativen Methoden
Die PWD-Net-Architektur adressiert spezifische Einschränkungen bestehender Ansätze durch drei komplementäre Module. Im Vergleich zu Methoden, die auf Standard-Quadrat-Faltungskernen basieren, bietet das PCM eine Richtungssensitivität durch mehreckig rotierte Kerne, was eine bessere Anpassung an die unregelmäßige und vielfältige Morphologie der kolorektalen Polypen ermöglicht. Im Vergleich zu eindimensionalen Aufmerksamkeitsmechanismen (z. B. Kanal-Only-Aufmerksamkeit in Quetsch- und Anregungsnetzwerken³³) modelliert das DAM gemeinsam Kanal- und räumliche Bedeutung und bietet so eine umfassendere Rauschunterdrückung in der komplexen Koloskopieumgebung. Im Vergleich zu transformatorbasierten Architekturen wie TransUNet³⁴ und Polyp-PVT³⁵, die eine starke globale Modellierung bieten, aber zu höheren Rechenkosten, erzielt PWD-Net eine wettbewerbsfähige Leistung mit einer relativ kompakten Modellgröße (9,1 Mio. Parameter) und praktischer Inferenzgeschwindigkeit (63 FPS), wie in Tabelle 3 dokumentiert.

Es sollte beachtet werden, dass die in dieser Studie dargestellten Vergleiche (Tabelle 3) unter kontrollierten Bedingungen mit identischen Datenaufteilungen, Vorverarbeitungs- und Bewertungsprotokollen durchgeführt werden. Die beobachteten Leistungsunterschiede sind spezifisch für den Kvasir-SEG-Testsatz (100 Bilder), der in dieser Studie verwendet wurde, und lassen sich möglicherweise nicht direkt auf andere Datensätze oder klinische Umgebungen verallgemeinern. Ein umfassenderer Vergleich mit weiteren etablierten Baselines (z. B. PraNet³⁶, ResUNet+⁺³⁷) unter standardisierten Multi-Dataset-Benchmarks würde die Evidenz weiter stärken und ist für zukünftige Arbeiten geplant. Jüngste Arbeiten zu dualen Encoder-Decoder-Architekturen für Polypensegmentierung³⁸ haben das Potenzial paralleler Codier- und Dekodierungspfade demonstriert. Die PWD-Net-Architektur unterscheidet sich dadurch, dass sie sich auf rotationsgeometrische Modellierung und duale Aufmerksamkeitsfilterung innerhalb einer einzigen Encoder-Decoder-Pipeline konzentriert und eine komplementäre Designphilosophie darstellt.

Mehrere wichtige Einschränkungen dieser Studie sollten anerkannt werden. Erstens, bezüglich des experimentellen Umfangs, berichtet die aktuelle Studie ausschließlich über den Kvasir-SEG-Datensatz mit einer einzigen zufälligen Aufteilung von 800 Trainingsbildern, 100 Validierungen und 100 Testbildern. Die Testsetgröße (100 Bilder) ist relativ klein, und es wird nur ein einziger Trainingslauf ohne wiederholte Experimente oder Kreuzvalidierung gemeldet. Folglich können die gemeldeten Leistungskennzahlen Abweichungen im Zusammenhang mit der spezifischen Datenaufteilung unterliegen. Zukünftige Arbeiten sollten k-fache Kreuzvalidierung oder mehrere zufällige Aufteilungen mit gemeldeten Standardabweichungen enthalten, um robustere Leistungsschätzungen zu liefern. Zweitens bringt das PCM zusätzlichen Rechenaufwand durch mehrfache Kernelrotation und -aggregation. Obwohl das Gesamtmodell kompakt bleibt (9,1 Millionen Parameter), kann der Einsatz auf ressourcenbeschränkten Geräten in klinischen Umgebungen eine weitere Optimierung durch Techniken wie Wissensdestillation oder Modellbeschneidung erfordern. Drittens wird das Modell ausschließlich auf statischen Bildern trainiert und ausgewertet, während die klinische Koloskopie Echtzeit-Videoströme beinhaltet, bei denen sich das Aussehen, die Größe und der Blickwinkel der Polypen dynamisch über aufeinanderfolgende Bilder hinweg ändern. Obwohl die Inferenzgeschwindigkeit von 63 FPS mit Echtzeit-Bildraten kompatibel ist, stellt diese Metrik allein keine klinische Validierung dar. Eine prospektive Validierung von endoskopischen Videodaten, Leserstudien und nachgelagerten klinischen Endpunktanalysen wäre notwendig, bevor Behauptungen über klinische Bereitschaft erhoben werden können 39,40,41. Die aktuelle Arbeit sollte als methodischer Beitrag und nicht als klinisch validiertes System verstanden werden.

Viertens geht der klinische Translationsweg für KI-unterstützte Polypensegmentierung weit über die Segmentierungsgenauigkeit hinaus. Jüngste Übersichten haben hervorgehoben, dass fortschrittliche Bildgebende und Analysetools in breitere endoluminale Arbeitsabläufe integriert werden müssen, einschließlich Läsionenklassifizierung, Stadieneinteilung und Behandlungsplanung. Das aktuelle Protokoll konzentriert sich ausschließlich auf binäre Polypensegmentierung und behandelt nicht die pathologische^{42-Klassifikation} (z. B. adenomatöse vs. hyperplastische Polypen) oder die Risikobewertung von Malignität, die für klinische Entscheidungen unerlässlich sind. Fünftens stammen die in dieser Studie verwendeten Datensätze hauptsächlich aus Koloskopieuntersuchungen bei Erwachsenen. Daten zu pädiatrischen Polypen, Polypen, die mit entzündlichen Darmerkrankungen assoziiert sind, und anderen speziellen pathologischen Typen sind nicht vertreten. Die Verallgemeinerbarkeit des Modells auf diese Populationen ist noch ungetestet. Sechstens: Während Ablationsexperimente und qualitative Visualisierungen zur Veranschaulichung der Funktion jedes Moduls bereitgestellt werden, bleibt die Interpretierbarkeit des Modells begrenzt. Der Entscheidungsprozess von Deep-Learning-Modellen ist nicht vollständig transparent, was das Vertrauen und die Akzeptanz der Kliniker beeinträchtigen kann. Zukünftige Arbeiten könnten gradientenbasierte Visualisierungstechniken integrieren, um intuitivere Erklärungen zu Modellvorhersagen^{zu liefern 43}.

Trotz der oben genannten Einschränkungen bietet das PWD-Net-Protokoll einen reproduzierbaren Rahmen für die Polypensegmentierung, der als Grundlage für weitere Entwicklung dienen kann. Mögliche Richtungen umfassen: Erweiterung des Modells auf videobasierte Koloskopie-Analyse durch die Einbindung zeitlicher Modellierungstechniken; Hinzufügung eines Klassifikationszweigs für End-to-End-Segmentierung und pathologische Typisierung; die Ausweitung der Evaluation auf größere und vielfältigere Multi-Center-Datensätze; und die Erforschung der Integration innerhalb von endoluminalen robotischen Plattformen, bei denen KI-gestützte Bildanalyse zunehmend als Schlüsseltechnologie anerkannt ^wird. Das mit diesem Protokoll bereitgestellte Zusatzcodepaket soll die Reproduktion und Anpassung der Methode durch andere Forschungsgruppen erleichtern.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren haben nichts offenzulegen.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie wurde vom National Key R&D Program Chinas finanziert (Programmnummern 2022YFC3500200 und 2022YFC3500204).

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Adam Optimizer	—	—	Enthalten in PyTorch
Albumentationen	Albumentations-Team	v1.0+	Datenerweiterungsbibliothek
CUDA-Toolkit	NVIDIA	v11.3+	GPU-Beschleunigung
Kvasir-SEG-Datensatz	SimulaMet	—	https://datasets.simula.no/kvasir-seg/
Matplotlib	Matplotlib-Gemeinschaft	v3.4+	Visualisierung von Trainingskurven
NumPy	NumPy-Gemeinschaft	v1.21+	Numerische Berechnung
NVIDIA Tesla P100	NVIDIA	P100-PCIE-16GB	GPU für Training und Inferenz
OpenCV	OpenCV-Community	v4.5+	Bildvorverarbeitung
Python	Python Software Foundation	v3.8+	Programmiersprache
PyTorch	Meta-Plattformen	v1.12+	Deep-Learning-Framework
ResNet-50 vortrainierte Gewichte	PyTorch Model Zoo	—	ImageNet-1K vortrainiert
Ubuntu	Kanonisch	18.04+	Betriebssystem

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Polypensegmentierungsnetzwerk basierend auf Pinwheel-Konvolution und doppelter Aufmerksamkeit für die Diagnose einer kolorektalen präkanzerösen Läsion

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles