Protokół ten implementuje sieć głębokiego uczenia w kształcie litery U, integrującą konwolucję z kołem wiatraka, podwójną uwagę oraz wieloskalową fuzję do segmentacji polipów jelita grubego.
Method Article
Protokół ten implementuje sieć głębokiego uczenia w kształcie litery U, integrującą konwolucję z kołem wiatraka, podwójną uwagę oraz wieloskalową fuzję do segmentacji polipów jelita grubego.
Dokładna segmentacja polipów jelita grubego jest kluczowa dla wczesnej profilaktyki i diagnozy raka jelita grubego. Jednak ze względu na wysoką heterogeniczność polipów pod względem kształtu, rozmiaru i faktury, a także złożoność środowiska jelitowego (takie jak fałdy, refleksje zwierciaste i resztki kałowe), istniejące metody nadal napotykają poważne wyzwania w lokalizacji granic i wykrywaniu małych polipów. Aby rozwiązać te problemy, artykuł proponuje sieć segmentacji polipów opartą na konwolucji wiatraczkowej i podwójnej uwadze (PWD-Net). Proponowana sieć wykorzystuje architekturę enkoder–dekoder w kształcie litery U, gdzie wstępnie wytrenowany ResNet jest wykorzystywany jako enkoder do wyodrębniania wielopoziomowych lokalnych cech. Konkretnie, na warstwie wąskiego gardła wprowadza się Moduł Splotu Wiatraka (PCM), który rejestruje globalną strukturę geometryczną oraz wielokierunkową kontekstową informację polipów za pomocą wielokątowych jąder splotu obracanego. Mechanizm podwójnej uwagi (DAM), który integruje uwagę kanałową i przestrzenną, został zaprojektowany tak, aby adaptacyjnie tłumić szum tła i wzmacniać cechy obszaru polipów. Ponadto stosuje się strategię Multi-scale Feature Fusion (MSF), która łączy głębokie informacje semantyczne z niewielkimi szczegółami granic, zapewniając zarówno kompletność, jak i precyzję wyników segmentacji. Eksperymenty przeprowadzone na zbiorach danych Kvasir-SEG i CVC-ClinicDB wykazują, że PWD-Net osiąga średnie współczynniki Dice 0,865 i 0,944 oraz wyniki IoU odpowiednio 0,765 i 0,892, co znacząco przewyższa istniejące metody najnowocześniejsze. Badania ablacji potwierdzają skuteczność każdego modułu, a oceny między zbiorami danych potwierdzają silną zdolność modelu do uogólnienia. Badanie to dostarcza precyzyjnego i solidnego rozwiązania dla segmentacji polipów klinicznych, oferując istotną wartość we wczesnej diagnozie przedrakowych zmian jelita grubego oraz wspierając interwencję wspomaganą komputerowo.
Rak jelita grubego jest jednym z najczęstszych złośliwych guzów na świecie, z konsekwentnie wysoką częstością występowania i śmiertelnością. Badania wykazały, że większość nowotworów jelita grubego rozwija się w wyniku polipów gruczolatych, co zwykle trwa 10–15 lat, co daje cenne okno czasowe na wczesne wykrycie i interwencję. Wzrost wskaźnika wykrywania gruczolaków (ADR) o 1% może zmniejszyć ryzyko raka jelita grubego o około 3%, znacząco obniżając śmiertelność pacjentów1. Kolonoskopia, uważana za złoty standard w badaniach przesiewowych raka jelita grubego, umożliwia bezpośrednie usuwanie polipów podczas badań, co skutecznie zmniejsza częstość występowania i śmiertelność z powodu nowotworów.
Jednak konwencjonalna kolonoskopia w dużej mierze zależy od doświadczenia i umiejętności endoskopistów. Czynniki takie jak subiektywna ocena, zmęczenie wzrokowe i rozproszenie mogą prowadzić do wskaźnika błędów na poziomie 20%–30%, co bezpośrednio wpływa na skuteczność przesiewową2. Dlatego opracowanie systemów wspomaganego detekcji komputerowej (CAD) do automatycznej segmentacji polipów jelita grubego ma duże znaczenie dla poprawy ADR i zmniejszenia liczby pominiętych diagnoz. Ostatnie badania kliniczne dodatkowo podkreśliły zainteresowanie integracją sztucznej inteligencji w procesach oceny zmian endoskopowych, podkreślając potrzebę stosowania solidnych i powtarzalnych metod segmentacji3.
W ostatnich latach głębokie uczenie osiągnęło znaczące postępy w analizie obrazów medycznych, szczególnie w sieciach neuronowych splotowych (CNN), które wykazują silne możliwości w ekstrakcji i reprezentacji cech dla zadań segmentacji obrazów4. Jako klasyczny model segmentacji obrazów medycznych, U-Net wykorzystuje symetryczną architekturę enkoder–dekoder oraz połączenia pomijające, aby osiągnąć dokładną segmentację na poziomie pikseli, stając się wzorem w tej dziedzinie5. Bazując na U-Net, zaproponowano wiele ulepszonych architektur mających na celu rozwiązanie złożonych zadań segmentacji obrazów medycznych. UNet++ zmniejsza semantyczną lukę między mapami cech kodera i dekodera, wprowadzając zagnieżdżone i gęste połączenia pomijania6. ResUNet++ integruje bloki resztkowe, moduły ściskania i pobudzania, sploty rozszerzające oraz mechanizmy uwagi, osiągając wysoką wydajność w segmentacji polipów7. U2-Net stosuje dwupoziomową, zagnieżdżoną strukturę w kształcie litery U, aby przechwytywać informacje o cechach w wielu skalach8. Niedawno zaproponowano podwójną sieć segmentacji polipów opartą na enkoderze i dekoderze, wykorzystującą równoległe ścieżki kodowania i dekodowania, aby jeszcze bardziej zwiększyć dokładność segmentacji9.
Tymczasem wprowadzenie mechanizmów skupiających uwagę dostarcza nowych rozwiązań dla wzmocnienia cech i tłumienia szumów. Uwaga: U-Net wykorzystuje bramki uwagi, aby skupić się na docelowych regionach, jednocześnie tłumiąc nieistotne informacje tła10. Sieć Dual Attention Network (DANet) adaptacyjnie waży cechy zarówno z wymiarów kanałowych,jak i przestrzennych 11, poprawiając percepcję cech krytycznych. Sieci Triple Attention (TANet) dodatkowo poprawiają wydajność segmentacji poprzez adaptacyjny wybór funkcji wieloskalowych12.
Dzięki sukcesowi architektur Transformer w przetwarzaniu języka naturalnego i widzeniukomputerowym 13, naukowcy zaczęli badać ich zastosowanie w segmentacji obrazów medycznych. TransUNet jako pierwszy zastosował transformator jako enkoder do modelowania długoterminowych zależności efektywnie14. Swin-UNet przyjmuje czystą architekturę Transformera i osiąga efektywną globalną agregację informacji dzięki mechanizmowi przesuniętego okna15. UTNet proponuje architekturę hybrydową, która łączy lokalną zdolność ekstrakcji cech CNN z globalnym modelowaniem Transformers16.
W dziedzinie segmentacji polipów Polyp-PVT wykorzystuje transformator z wizją piramidową do rejestrowania wieloskalowych globalnych informacji semantycznych17, podczas gdy wieloskalowy zagnieżdżony UNet wzmacnia zrozumienie kontekstu poprzez integrację Transformers18. Najnowsze badania analizowały także strategie uczenia się negatywnej korelacji dla segmentacji polipówmiędzydomenowych 19, wzmocnienia segmentacji uzupełnianej Gompertzem20 oraz architektur opartych na uwadze uwzględniających wyznaczanie granic21. Chociaż te podejścia częściowo poprawiają wydajność segmentacji, segmentacja polipów nadal napotyka kilka wyzwań. Po pierwsze, polipy wykazują wysoką heterogeniczność morfologii, rozmiaru i faktury, od mikropolipów mniejszych niż 5 mm po duże polipy przekraczające 30 mm, z kształtami od okrągłych i eliptycznych po bardzo nieregularne. Po drugie, środowisko jelitowe jest złożone i zmienne, gdzie fałdy śluzowe, refleksje zwierciane, resztki kału i resztki jedzenia wprowadzają poważne zakłócenia tła. Po trzecie, wiele polipów ma rozmyte granice, może być częściowo zasłoniętych przez fałdy lub zanurzone w płynach jelitowych, co czyni precyzyjną lokalizację granic niezwykle trudną22.
Istniejące metody nadal mają wyraźne ograniczenia w rozwiązywaniu tych wyzwań. Tradycyjne CNN skutecznie wydobywać lokalne tekstury i cechy krawędzi; Jednak jądra splotu o stałym kwadratie nie są dobrze przystosowane do uchwycenia różnorodnych kształtów geometrycznych23, zwłaszcza dla bardzo nieregularnych polipów, i nie są w stanie skutecznie modelować wielokierunkowych cech geometrycznych. Metody oparte na transformatorach mogą modelować globalne zależności, ale są mniej skuteczne w rejestrowaniu drobnych lokalnych szczegółów i informacji o granicach. Co więcej, ich wysoka złożoność obliczeniowa sprawia, że są mniej odpowiednie do zastosowań klinicznych w czasie rzeczywistym24. Najnowsze podejścia do segmentacji polipów, takie jak PraNet, który wykorzystuje moduły odwrotnej uwagi do doprecyzowania kluczowych regionów25, sieci kaskadowej uwagi kierowanej granicami usprawniające ekstrakcję cech brzegowych26 oraz CAFE-Net, który łączy cechy enkodera i dekodera poprzez mechanizmy cross-attention27, nadal napotykają niewystarczającą reprezentację cech i niedokładną lokalizację granic przy pracy z małymi polipami28, rozmyte granice i złożone tła. Ponadto większość metod pomija morfologię geometryczną i nie wykorzystuje w pełni wielokierunkowej informacji kontekstowej, co skutkuje suboptymalną segmentacją nieregularnie ukształtowanych polipów.
Podsumowując, obecne metody oparte na CNN nie są w stanie uchwycić wielokierunkowych cech geometrycznych ze względu na ich uzależnienie od jąder splotu o stałym kwadratzie. Podejścia oparte na transformatorach oferują modelowanie globalne, ale tracą lokalną precyzję granic i nakładają wysokie koszty obliczeniowe. Tymczasem istniejące strategie fuzji zwiększonej uwagi i wieloskalowej fuzji nie zostały wspólnie zoptymalizowane w ramach jednolitego modelu specjalnie dostosowanego do segmentacji polipów29. Te luki motywują do opracowania metody, która jednocześnie zajmuje się modelowaniem cech geometrycznych, adaptacyjnym tłumieniem szumów oraz integracją cech w skali międzyskalowej.
Aby rozwiązać te problemy, protokół ten prezentuje Sieć Segmentacji Polipów opartą na Pinwheel Conwolution and Dual Attention (PWD-Net). Proponowana sieć integruje modelowanie cech geometrycznych, wielowymiarowe wzmacnianie uwagi oraz wieloskalową fuzję cech, umożliwiając precyzyjną segmentację złożonych polipów. Główne osiągnięcia tej pracy podsumowano następująco: moduł splotu wiatraka (PCM), inspirowany strukturą wiatraka, proponuje nowatorski projekt jądra splotu obrotowego, który uchwyca wielokierunkowe cechy geometryczne polipów poprzez operacje splotowe pod wieloma kątami (0°, 45°, 90°, 135°, 180°, 225°, 270°, oraz 315°). Ten moduł zastępuje konwencjonalną warstwę konwolucyjną na etapie wąskiego gardła, umożliwiając skuteczną percepcję różnorodnych orientacji krawędzi i znacząco poprawiając reprezentację nieregularnie ukształtowanych polipów. Mechanizm podwójnej uwagi (DAM) zwalcza szum tła, taki jak fałdy, odbicia i resztki kału na obrazach kolonoskopii. Zaprojektowano moduł dual-attention integrujący uwagę kanałową i przestrzenną. Wbudowany w połączenia skip, moduł ten adaptacyjnie tłumi interferencje tła i wzmacnia odpowiedzi cech w regionach polipów, wspólnie identyfikując "co" jest ważne (wymiar kanału) oraz "gdzie" znajduje się cel (wymiar przestrzenny), zapewniając, że w kolejnej fuzji uczestniczą tylko wyrafinowane cechy. Strategia fuzji cech wieloskalowych (MSF) zachowuje zarówno głębokie informacje semantyczne, jak i płytkie szczegóły granic dzięki hierarchicznemu mechanizmowi wprowadzonemu w dekoderze. Poprzez stopniowe integrowanie cech enkodera ulepszonych przez DAM z funkcjami dekodera z podwyższonym próbką, strategia ta skutecznie kompensuje utratę szczegółów przestrzennych spowodowaną próbkowaniem w redukcji, umożliwiając dokładne wykrywanie małych polipów i precyzyjne wyznaczanie granic.
Badanie wykorzystuje wyłącznie publicznie dostępne, zanonimizowane zestawy obrazów kolonoskopii (Kvasir-SEG). Nie zbierano nowych danych o ludziach. Zatwierdzenie etyki instytucjonalnej oraz świadoma zgoda pacjenta nie były wymagane, co potwierdzają polityki przeglądu instytucjonalnego dla analiz retrospektywnych zdeanonimowanych zbiorów danych publicznych.
1. Przygotowanie danych
2. Architektura ogólna
UWAGA: Patrz na Rysunek 1 dla szkieletu enkodera–dekodera na poziomie makro PWD-Net oraz Rysunek 2 dla integracji i interakcji modułów podstawowych w przepływie cech. Cała architektura opiera się na enkoderze w kształcie litery U, aby radzić sobie z różnicami skali polipów i interferencjami tła na obrazach kolonoskopii.
3. Moduł splotu z kołem wiatraczkowym (Rysunek 3)

4. Mechanizm podwójnej uwagi (Rysunek 4)
UWAGA: Mechanizm Dual-Attention (DAM) jest wbudowany w każde połączenie skip, aby tłumić szum tła i wzmacniać cechy regionu polipów zarówno z wymiarów kanałowych, jak i przestrzennych.


5. Fuzja cech wieloskalowych
6. Funkcja utraty i konfiguracja treningowa



7. Pseudokod
Algorytm 1: Segmentacja polipów PWD-Net
1: Input: Obraz kolonoskopii I ∈ RH×W×3
2: Wyjście: Maska segmentacji M ∈ {0,1}(H×W)
3:
4: funkcja PCM(X) ▷ Moduł konwolucyjny Pinwheel
5: Zdefiniuj jądro bazowe W (3 x 3), kąty Θ = {0°, 45°, ..., 315°}
6: dla każdego θ ∈ Θ do
7: Wθ ← BilinearRotate(W, θ) ▷ Rotate kernel
8: Yθ ← Conv2d(X, Wθ) ▷ Cechy specyficzne dla kierunku
9: koniec dla
10: Yout ← ReLU(BN(Conv1 x 1(Concat({Yθ})))) ▷ Agregat
11: wyjść
12: funkcja końcowa
13:
14: funkcja DAM(F) ▷ Mechanizm podwójnej uwagi
15: Ac ← Sigmoid(MLP(AvgPool(F))) ▷ Uwaga kanałowa (r=16)
16: As ← Sigmoid(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Uwaga przestrzenna
17: F' ← F ⊗ (α · Ac + β ·A s) ▷ Fuzja z uczalnym α, β (init=0,5)
18: powrót F'
19: funkcja końcowa
20:
21: funkcja PWD-Net(I)
22: Koder: e1, e2, e3, e4, e5 ← ResNet50_Stages(I) ▷ 5-stopniowy pretrenowany enkoder
23: Wąskie gardło: b ← PCM(e5) ▷ Zastosowanie PCM przy wąskim gardle
24: Pomiń połączenia: si ← DAM(ei) dla i = 1, 2, 3, 4 ▷ Funkcje enkodera filtrów
25: Dekoder:
26: d4 ← Podwójna konwersacja (Concat(Up(b), s4))
27: d3 ← podwójna konwic(koncat(Up(d4), s3))
28: d2 ← DoubleConv(Concat(Up(d3), s2))
29: d1 ← DoubleConv(Concat(Up(d2), s1))
30: M ← Sigmoid(Conv1 x 1(d1))
31: powrót M
32: funkcja końcowa
33:
34: Szkolenie:
35: dla każdej epoki do
36: M̂ ← PWD-Net(I)
37: L ← 0,5 · BCE(M̂, Mgt) + 0,5 · DiceLoss(M̂, Mgt) ▷ λ = 0,5
38: Aktualizuj parametry za pomocą propagacji wstecznej (Adam optymalizujr)
39: koniec dla
Układ eksperymentalny
Zbiór danych
Zestaw danych Kvasir SEG został wykorzystany do oceny zachowania segmentacyjnego sieci PWD na obrazach kolonoskopiowych o heterogenicznym wyglądzie polipa. Zbiór danych zawiera obrazy polipów adnotowanych o długości 1 000 pikseli i obejmuje zmienność rozmiaru polipa, kształtu, tekstury, oświetlenia oraz złożoności tła, co czyni go odpowiednim do oceny wykrywania małych celów, lokalizacji granic oraz odporności na interferencje wzrokowe. Zbiór danych podzielono na podzbiory treningowe, walidacyjne i testowe, a ostateczny zestaw testowy służył wyłącznie do oceny wydajności. Rozkład obrazów jest podsumowany w Tabeli 1.
Szczegóły implementacji
Ustawienia implementacyjne wymagane do powtarzalności są podsumowane w Tabeli 2, a pełne szczegóły proceduralne przedstawiono w krokach Przygotowania Danych oraz w sekcji 5.2 Protokołu. Do interpretacji wyników wszystkie zgłoszone eksperymenty wykorzystywały tę samą rozdzielczość wejściową, środowisko sprzętowe oraz warunki oceny wymienione w Tabeli Materiałów. Raportowane wartości opierają się na wybranym punkcie kontrolnym Dice walidacji z pojedynczego uruchomienia z użyciem seed = 42, dlatego wyniki należy interpretować jako wydajność przy stałym podziale eksperymentalnym, a nie jako uśrednione wyniki walidacji krzyżowej.
Metryki ewaluacyjne
Wydajność segmentacji oceniano za pomocą współczynnika kostki, przecięcia przez sumę, dokładności na poziomie pikseli oraz szybkości wnioskowania. Współczynnik kości i przecięcie przez sumę były używane jako główne metryki oparte na nakładaniu się, ponieważ bezpośrednio odzwierciedlają zgodność między przewidywaną maską a obszarem polipów z adnotacjami ekspertów. Dokładność na poziomie pikseli była zgłaszana jako miara uzupełniająca, ponieważ obrazy kolonoskopiowe często zawierają duże obszary tła. Uwzględniono szybkość wnioskowania, podawaną jako klatki na sekundę, aby ocenić, czy model zachowuje praktyczną efektywność obliczeniową przy jednoczesnej poprawie jakości segmentacji.
Porównanie z istniejącymi metodami
Aby wykazać zachowanie i skuteczność PWD-Net, przeprowadza się porównanie z pięcioma reprezentatywnymi metodami segmentacji polipów: CBSA (Channel-Boosted Spatial Attention network)34, FSSA (Feature-Shared Spatial Attention network), MSF (Multi-Scale Fusion network), Pinwheel-Conv (Pinwheel Convolution baseline without attention lub fusion modules) oraz PolaLinear (Polarized Linear attention network). Wszystkie metody porównań są ponownie implementowane przy użyciu oficjalnie udostępnionych kodów źródłowych i trenowane na tym samym zbiorze treningowym Kvasir-SEG (800 obrazów) pod identycznym wstępnym przetwarzaniem, rozdzielczością wejściową (352 x 352) oraz ustawieniami ewaluacji, aby zapewnić uczciwe porównanie. Tabela 3 przedstawia ilościowe wyniki na zestawie testowym.
Jak pokazano w Tabeli 3, PWD-Net osiąga współczynnik Dice 0,865 oraz IoU 0,765, co oznacza poprawę o 1,8% w Dice i 4,8% w IoU w porównaniu z następną najlepszą metodą (CBSA). Warto zauważyć, że PWD-Net osiąga to z parametrami 9,1 mln, w porównaniu do 18,4 mln dla CBSA, co wskazuje na korzystną efektywność. Chociaż PolaLinear i Pinwheel-Conv oferują szybsze wnioskowanie (odpowiednio 79 i 72 FPS), ich dokładność segmentacji jest zauważalnie niższa, co sugeruje, że PWD-Net zapewnia rozsądną równowagę między dokładnością a kosztami obliczeniowymi dla ocenianego zbioru danych. Aby zilustrować jakościowe zachowanie segmentacji, wybiera się pięć reprezentatywnych próbek testowych obejmujących małe polipy, duże polipy, złożone tła i rozmyte granice do porównania wizualnego. Rysunek 5 przedstawia wyniki segmentacji czterech wybranych metod porównawczych (CBSA, FSSA, MSF i PWD-Net) obok faktów z terenu. Każda kolumna predykcji jest oznaczona odpowiadającą nazwą metody. Pinwheel-Conv i PolaLinear są pominięte w tym rysunku dla przejrzystości wizualnej, ponieważ ich wydajność ilościowa jest znacznie niższa; ten rysunek przedstawia zatem wybrany podzbiór metod porównywanych w Tabeli 3.
Jak pokazano na Rysunku 5, w scenariuszach z małymi polipami (pierwszy i piąty wiersz) FSSA i MSF wykazują przegapione wykrycia, podczas gdy PWD-Net rejestruje cele pełniej. W scenariuszach z dużymi polipami (drugi i trzeci rząd) CBSA i FSSA powodują zauważalne nieprawidłowości granic, podczas gdy PWD-Net generuje łagodniejsze granice. W scenariuszu z rozmytą granicą (czwarty rząd) PWD-Net demonstruje skuteczne tłumienie szumu tła za pomocą mechanizmu podwójnej uwagi.
Badanie ablacji
Aby przeanalizować wkład każdego kluczowego komponentu w PWD-Net, przeprowadza się systematyczne badanie ablacji. Używając ResNet-50 jako enkodera szkieletowego do utworzenia modelu bazowego, moduł Pinwheel Convolution (Pinwheel), Dual-Attention Mechanism (Dual-Attn) oraz Multi-Scale Feature Fusion (MSF) są wprowadzane stopniowo. Tabela 4 podsumowuje wyniki ilościowe.
Kluczowe ustalenia z Tabeli 4 można podsumować następująco. Po pierwsze, dodanie dowolnego pojedynczego modułu poprawia wydajność modelu bazowego. Mechanizm Dual-Attention przynosi najbardziej znaczące korzyści (kości: +2,0%, IoU: +2,7%), wspierając skuteczność adaptacyjnego tłumienia szumów. Moduł Pinwheel Convolution Module poprawia Dice o 1,6%, co wskazuje na korzyści z wielokierunkowej ekstrakcji cech dla nieregularnych kształtów polipów. Po drugie, połączenie Windwheel Convolution i Dual-Attention Mechanism dodatkowo zwiększa wydajność do Dice = 0,858 i IoU = 0,748, co sugeruje komplementarność między tymi dwoma modułami. Wreszcie, kompletny PWD-Net (integrujący wszystkie trzy moduły) osiąga najlepszą zaobserwowaną wydajność (Dice = 0,865, IoU = 0,765), z poprawą odpowiednio o 3,3% i 6,0% w porównaniu z bazowym poziomem, co pokazuje wkład każdego proponowanego komponentu w tym zbiorze danych.
Analiza procesu szkoleniowego
Aby zilustrować dynamikę treningu i cechy zbieżności PWD-Net, kluczowe wskaźniki wydajności są rejestrowane i wizualizowane w ciągu 50 epok treningowych. Rysunek 6 pokazuje zmiany funkcji strat, współczynnika kości, IoU oraz dokładności podczas treningu.
Jak pokazano na Rysunku 6(a), zarówno utrata treningowa, jak i strata walidacji szybko maleją w ciągu pierwszych 10 epok, a następnie stopniowo się stabilizują. Strata walidacji pozostaje nieco wyższa niż utrata treningowa przez cały czas, ale obie krzywe podążają za spójnym trendem z niewielką przerwą, co wskazuje, że model nie cierpi na poważne przekwalifikowanie. Rysunek 6(b) pokazuje, że współczynnik Dice gwałtownie rośnie na wczesnym etapie treningowym, zbiega się po około 30. epoce i stabilizuje się powyżej 0,86. Krzywa IoU na Rysunku 6(c) wykazuje podobny trend wzrostu, osiągając około 0,765 w późnej fazie treningowej. Rysunek 6(d) wskazuje, że dokładność zbiega powyżej 94%. Stabilne trendy walidacyjne w środkowym i późnym etapie treningu sugerują, że przyjęta strategia augmentacji danych oraz harmonogram wyżarzania kosinusowego przyczyniają się do ograniczania nadmiernego dopasowania tego zbioru danych.
Wydajność we wszystkich rozmiarach polipów
Aby dokładniej ocenić zastosowanie PWD-Net w różnych scenariuszach klinicznych, zestaw testowy (100 obrazów) dzieli się na trzy kategorie według stosunku powierzchni polipów do całkowitej powierzchni obrazu: małe polipy (< 5%), polipy średnie (5%–30%) oraz duże polipy (> 30%). Ta klasyfikacja odzwierciedla wpływ skali polipowej na trudność segmentacji. Tabela 5 przedstawia wyniki ilościowe dla każdej kategorii. Jak pokazano w Tabeli 5, PWD-Net osiąga najlepsze wyniki w kategorii średnich polipów (Dice = 0,882, IoU = 0,790), co jest zgodne z większą reprezentacją tej kategorii (54 na 100 obrazów testowych). Wydajność na dużych polipach pozostaje na porównywalnym poziomie (Dice = 0,861, IoU = 0,760). Wydajność na małych polipach jest stosunkowo niższa (Dice = 0,812, IoU = 0,685), głównie dlatego, że małe cele zajmują niewielką część obrazu i są bardziej podatne na szum tła przy rzadszych informacjach o granicach.
Wyniki te sugerują, że wielokierunkowa zdolność przechwytywania cech modułu Pinwheel Convolution oraz przestrzenna lokalizacja mechanizmu Dual-Attention przyczyniają się do utrzymania rozsądnej jakości segmentacji na różnych skalach polipów na ocenianym zbiorze testowym.

Rysunek 1: Ramy modelu PWD-Net. Ogólna struktura proponowanej Sieci Segmentacji Polipów opartej na Pinwheel Convolution and Dual Attention (PWD-Net), ilustrująca enkoder (ResNet-50), wąskie gardło (PCM), połączenia pomijania wzmocnione przez DAM, dekoder MSF oraz generowanie wyników dla segmentacji polipów kolorektalnych. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.

Rysunek 2: Ogólny schemat architektury PWD-Net. Szczegółowy schemat blokowy pełnej architektury PWD-Net, pokazujący pięciostopniowy enkoder ResNet-50, wąskie gardło PCM, połączenia DAM skip, wieloskalowy dekoder fuzji funkcji oraz końcowe generowanie predykcji. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.

Rysunek 3: Schemat modułu splotu wiatraka. Schemat strukturalny i operacyjny modułu Pinwheel Convolution Module, demonstrujący wielokątowe obracane jądra splotowe, obrót oparty na interpolacji biliniowej, konkatenację kanałów oraz agregację splotową 1 x 1. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.

Rysunek 4: Diagram struktury mechanizmu podwójnej uwagi. Schemat architektoniczny DAM, pokazujący równoległą gałąź uwagi kanałowej (Global Average Pooling → MLP z redukcyjnym stosunkiem r = 16 → Sigmoid) oraz gałąź uwagi przestrzennej (pooling kanałowy → splot 7 x 7 → Sigmoid), a następnie ważoną fuzję z uczalnymi współczynnikami α i β. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.

Rysunek 5: Jakościowe porównanie wyników segmentacji. Każdy wiersz reprezentuje próbkę testową. Kolumny od lewej do prawej: Input image, Ground Truth, CBSA, FSSA, MSF oraz PWD-Net (nasz). Pinwheel-Conv i PolaLinear zostały pominięte z tego rysunku dla przejrzystości wizualnej; patrz Tabela 3 dla pełnego porównania ilościowego. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.

Rysunek 6: Krzywe treningowe PWD-Net na przestrzeni 50 epok. (a) Utrata treningowa i walidacja. (b) Współczynnik kości. (c) Przecięcie nad Unią (IoU). (d) Dokładność na poziomie pikseli. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
| Podzbiór treningowy | Liczba próbek | Proporcja |
| Skład kolejowy | 800 | 80% |
| Zbiór walidacyjny | 100 | 10% |
| Zestaw testowy | 100 | 10% |
| Komplet | 1000 | 100% |
Tabela 1: Statystyki zbioru danych. Rozkład podzielony zbioru danych dla zbioru Kvasir-SEG (łącznie 1000 obrazów), pokazując liczbę obrazów oraz proporcje przypisane do podzbiorów treningowych, walidacyjnych i testowych (losowe ziarno = 42).
| Kategoria | Element parametru | Ustawianie parametrów |
| Ramy Deep Learning | Ramy | PyTorch |
| Środowisko sprzętowe | GPU | NVIDIA Tesla P100 |
| Metoda przyspieszania | Przyspieszenie GPU | CUDA |
| Ustawienia wejściowe | Rozmiar obrazu wejściowego | 352 × 352 |
| Format obrazu | Format obrazu | Obraz RGB |
| Optymalizator | Optymalizator | Adam |
| Początkowy wskaźnik uczenia się | Początkowy LR | 1 × 10⁻4 |
| Wielkość partii | Wielkość partii | 16 |
| Epoki szkoleniowe | Epoki | 50 |
| Funkcja straty | Funkcja straty | Utrata kości + BCE |
Tabela 2: Parametry eksperymentalne. Parametry eksperymentalne do treningu i oceny PWD-Net. Zapoznaj się z krokami przygotowania danych oraz sekcją 5.2 protokołu, aby poznać pełną procedurę wdrożenia krok po kroku.
| Metoda | Kości ↑ | IoU ↑ | Dokładność ↑ | Parametry (M) ↓ | FPS ↑ |
| CBSA | 0.8466 | 0.717 | 0.9325 | 18.4 | 36 |
| FSSA | 0.7109 | 0.551 | 0.9012 | 9.8 | 61 |
| MSF | 0.7337 | 0.585 | 0.9086 | 11.5 | 54 |
| Pinwheel-Conv | 0.8007 | 0.6742 | 0.9401 | 7.9 | 72 |
| PolaLinear | 0.7213 | 0.5707 | 0.9113 | 6.6 | 79 |
| PWD-Net (Nasz) | 0.865 | 0.7651 | 0.9478 | 9.1 | 63 |
Tabela 3: Wyniki porównań ilościowych. Ilościowe porównanie PWD-Net z pięcioma istniejącymi metodami segmentacji polipów na zestawie testowym Kvasir-SEG (100 obrazów). Wszystkie metody są oceniane na podstawie identycznych podziałów danych, wstępnego przetwarzania i rozdzielczości wejściowej (352 x 352). ↑ oznacza, że wyższe jest lepsze; ↓ oznacza, że niżej jest lepiej. Metody oznaczone * oznaczają wyniki cytowane z pierwotnej publikacji, a nie ponownie wdrożone.
| Konfiguracja | Wiatraczek | Dual-Attn | MSF | Kości ↑ | IoU ↑ |
| Baza | × | × | × | 0.832 | 0.705 |
| + Wiatrak | √ | × | × | 0.848 | 0.725 |
| + Dual-Attn | × | √ | × | 0.852 | 0.732 |
| + MSF | × | × | √ | 0.844 | 0.72 |
| + Wiatrak + Dual-Attn | √ | √ | × | 0.858 | 0.748 |
| Pełne (PWD-Net) | √ | √ | √ | 0.865 | 0.765 |
Tabela 4: Wyniki badań ablacji. Wyniki badania ablacji na zestawie testowym Kvasir-SEG, pokazujące inkrementalny wkład modułu Pinwheel Convolution Module (Pinwheel), Dual-Attention Mechanism (Dual-Attn) oraz Multi-Scale Feature Fusion (MSF) do bazowego enkodera ResNet-50.
| Typ polipa | Liczba | Kości ↑ | IoU ↑ |
| Małe polipy (< 5%) | 21 | 0.812 | 0.685 |
| Średnie polipy (5%–30%) | 54 | 0.882 | 0.79 |
| Duże polipy (> 30%) | 25 | 0.861 | 0.76 |
Tabela 5: Wydajność PWD-Net na różnych typach polipów. Wydajność PWD-Net na różnych kategoriach wielkości polipów w zbiorze testowym Kvasir-SEG (100 obrazów). Wielkość polipa definiuje się jako stosunek powierzchni polipa do całkowitej powierzchni obrazu.
Plik uzupełniający: Skompresowane archiwum zawierające implementację frameworka PWD-Net. Plik zawiera model.py definiowanie architektury sieciowej za pomocą Pinwheel Convolution Module (PCM) i Dual-Attention Mechanism (DAM), train.py implementację pipeline'u ładowania danych, funkcji utraty i procedury treningowej, test.py do wnioskowania i oceny modeli na zestawach testowych oraz requirements.txt listę wszystkich wymaganych bibliotek Pythona i ich odpowiadających im wersji. Kliknij tutaj, aby pobrać ten plik.
Kilka wyborów projektowych w protokole PWD-Net jest kluczowych dla uzyskania wiarygodnych wyników segmentacji i wymaga szczególnej uwagi podczas implementacji. Po pierwsze, wybór i inicjalizacja szkieletu enkodera bezpośrednio wpływają na zachowanie zbieżności i ostateczną wydajność. Protokół wykorzystuje enkoder ResNet-50 wstępnie wytrenowany na ImageNet, który zapewnia solidną inicjalizację funkcji na niskim i średnim poziomie. Jest to szczególnie istotne w zadaniach segmentacji obrazów medycznych, gdzie dostępne dane treningowe są ograniczone (800 obrazów w obecnym badaniu). Precyzyjne dostrojenie wszystkich warstw enkodera, zamiast ich zamrażania, pozwala sieci dostosować wcześniej wytrenowane cechy do specyficznych cech obrazów kolonoskopii, takich jak tekstury śluzowe i refleksje zwierciane. Po drugie, umieszczenie każdego modułu rdzeniowego w architekturze jest celowe. Moduł Wiatraczkowy (PCM) jest umieszczony w wąskim gardle, gdzie rozdzielczość przestrzenna jest najniższa, ale informacje semantyczne najbogatsze, co umożliwia efektywne rejestrowanie globalnych wzorców geometrycznych bez nadmiernych kosztów obliczeniowych. Mechanizm Dual-Attention (DAM) jest wbudowany w połączenia skip, a nie w dekoderze, co zapewnia tłumienie szumów tła przed przesłaniem cech do dekodera, zapobiegając propagacji skażonych elementów przez stopnie fuzji. Badanie ablacji (Tabela 4) potwierdza ten projekt: DAM zapewnia największy indywidualny wzrost wydajności (kości: +2,0%), co potwierdza znaczenie wczesnego tłumienia szumów w pipeline cech. Po trzecie, hybrydowa funkcja strat (0,5 · BCE + 0,5 · kości) równoważy dokładność klasyfikacji na poziomie pikseli z optymalizacją nakładania się na poziomie regionu. To połączenie jest szczególnie istotne dla segmentacji polipów, gdzie powszechna jest nierównowaga klas z pierwszym planem a tłem. Równowaga równa (λ = 0,5) jest przyjmowana domyślnie; dostosowanie tego stosunku może być konieczne dla zbiorów danych o różnych rozkładach klas (patrz Rozwiązywanie problemów poniżej).
Modyfikacje i rozwiązywanie problemów
Poniżej przedstawiono modyfikacje i wytyczne dotyczące rozwiązywania problemów w celu dostosowania protokołu do różnych warunków eksperymentalnych. Stosując protokół do zbiorów danych o różnych rozdzielczościach obrazu lub rozkładzie rozmiarów polipów, rozdzielczość wejściowa (352 x 352) może wymagać korekty. Większe rozmiary wejść mogą poprawić wykrywanie małych polipów, kosztem zwiększonego zużycia pamięci i zmniejszenia szybkości wnioskowania. Jeśli utrata treningu nie zbiega w ciągu 50 epok, rozważ zmniejszenie początkowej szybkości uczenia (np. do 5 x 10⁻5) lub wydłużenie długości cyklu wyżarzania kosinusowego. Jeśli model wykazuje wysokie wskaźniki fałszywie pozytywnych wyników w obszarach z silnymi odbiciami zwiercianymi lub fałdami błony śluzowej, zwiększenie wagi składowej utraty kostek (np. λ = 0,4 dla BCE, 0,6 dla kości) może poprawić precyzję granic kosztem dokładności na poziomie pikseli. Natomiast jeśli model podsegmentuje małe polipy, zwiększenie wagi BCE może pomóc. Liczba kątów obrotu w PCM (obecnie osiem, od 0° do 315° w krokach 45°) stanowi równowagę między zasięgiem kierunkowym a kosztami obliczeniowymi. Redukcja do czterech kątów (0°, 90°, 180°, 270°) zmniejsza ilość obliczeń, ale może zmniejszyć wrażliwość na skośne granice polipów. Współczynnik redukcji r = 16 w gałęzi uwagi kanału DAM podąża za konwencją ustaloną przez wcześniejsze sieci ściskania i wzbudzania32; Mniejsze stosunki (np. r = 8) zwiększają pojemność modelu, ale mogą prowadzić do nadmiernego dopasowania na małych zbiorach danych. Dla zbiorów danych znacznie większych niż Kvasir-SEG rozważ zwiększenie rozmiaru partii i odpowiednio treningowe epoki, a także monitorowanie metryk walidacji, aby określić odpowiedni punkt zatrzymania.
Znaczenie w odniesieniu do alternatywnych metod
Architektura PWD-Net odpowiada na specyficzne ograniczenia istniejących podejść poprzez trzy komplementarne moduły. W porównaniu z metodami opartymi na standardowych jądrach splotu kwadratowego, PCM zapewnia czułość kierunkową dzięki wielokątowym obracanym jądrom, umożliwiając lepszą adaptację do nieregularnej i zróżnicowanej morfologii polipów jelita grubego. W porównaniu z jednowymiarowymi mechanizmami uwagi (np. uwaga tylko kanałowa w sieciach ściskania i wzbudzania33), DAM wspólnie modeluje znaczenie kanałowe i przestrzenne, oferując bardziej kompleksowe tłumienie szumu w złożonym środowisku kolonoskopii. W porównaniu z architekturami opartymi na transformatorze, takimi jak TransUNet34 i Polyp-PVT35, które oferują silne globalne modelowanie, ale przy wyższych kosztach obliczeniowych, PWD-Net osiąga konkurencyjne wyniki przy stosunkowo kompaktowym rozmiarze modelu (9,1 mln parametrów) i praktycznej szybkości wnioskowania (63 FPS), jak przedstawiono w Tabeli 3.
Należy zauważyć, że porównania przedstawione w tym badaniu (Tabela 3) są przeprowadzane w warunkach kontrolowanych z identycznymi podziałami danych, wstępnym przetwarzaniem i protokołami ewaluacji. Zaobserwowane różnice w wydajności są specyficzne dla zestawu testowego Kvasir-SEG (100 obrazów) użytego w tym badaniu i mogą nie być bezpośrednio uogólnione na inne zbiory danych ani środowiska kliniczne. Szersze porównanie, uwzględniające dodatkowe ustalone punkty bazowe (np. PraNet36, ResUNet++37) w ramach standaryzowanych benchmarków wielozbiorowych danych, dodatkowo wzmocniłoby dowody i jest planowane do przyszłych prac. Najnowsze prace nad architekturą podwójnego enkodera-dekodera dla segmentacji polipów38 wykazały potencjał równoległych ścieżek kodowania i dekodowania. Architektura PWD-Net różni się koncentracją na rotacyjnym modelowaniu geometrycznym i filtrowaniu podwójnej uwagi w ramach jednego potoku enkodera-dekodera, reprezentując uzupełniającą filozofię projektowania.
Należy zauważyć kilka ważnych ograniczeń tego badania. Po pierwsze, jeśli chodzi o zakres eksperymentalny, obecne badanie przedstawia wyniki wyłącznie na zbiorze danych Kvasir-SEG, z jednym losowym podziałem na 800 obrazów treningowych, 100 walidacyjnych i 100 testowych. Rozmiar zestawu testowego (100 obrazów) jest stosunkowo niewielki, a raportowany jest tylko jeden test treningowy bez powtarzających się eksperymentów lub weryfikacji krzyżowej. W konsekwencji raportowane wskaźniki wydajności mogą podlegać odchyleniom związanym z konkretnym podziałem danych. Przyszłe prace powinny obejmować k-krotną walidację krzyżową lub wielokrotne losowe podziały z raportowanymi odchyleniami standardowymi, aby zapewnić bardziej solidne szacunki wydajności. Po drugie, PCM wprowadza dodatkowe obciążenie obliczeniowe poprzez rotację i agregację jądra pod wieloma kątami. Chociaż cały model pozostaje kompaktowy (9,1 mln parametrów), wdrożenie na urządzeniach o ograniczonych zasobach w środowiskach klinicznych może wymagać dalszej optymalizacji za pomocą technik takich jak destylacja wiedzy czy przycinanie modelu. Po trzecie, model jest trenowany i oceniany wyłącznie na obrazach statycznych, podczas gdy kolonoskopia kliniczna polega na strumieniach wideo w czasie rzeczywistym, w których wygląd, rozmiar i punkt widzenia polipów zmieniają się dynamicznie w kolejnych klatkach. Chociaż prędkość wnioskowania 63 FPS jest zgodna z rzeczywistymi liczbami klatek, sama ta miara nie stanowi klinicznej weryfikacji. Prospektywna walidacja na podstawie danych wideo endoskopowych, badań czytniczych oraz analiz końcowych klinicznych będzie konieczna, zanim można będzie stwierdzić gotowość kliniczną 39,40,41. Obecne prace należy rozumieć jako wkład metodologiczny, a nie klinicznie zweryfikowany system.
Po czwarte, kliniczna ścieżka translacji dla segmentacji polipów wspomaganej przez AI wykracza daleko poza dokładność segmentacji. Najnowsze przeglądy podkreśliły, że zaawansowane narzędzia obrazowania i analizy muszą być zintegrowane z szerszymi procesami endoluminalnymi, w tym klasyfikacją zmian, etapowaniem i planowaniem leczenia. Obecny protokół koncentruje się wyłącznie na segmentacji polipów binarnych i nie obejmuje klasyfikacjipatologicznej 42 (np. polipów gruczolatych vs. hiperplastycznych) ani oceny ryzyka nowotworów, które są niezbędne do podejmowania decyzji klinicznych. Po piąte, zbiory danych użyte w tym badaniu pochodzą głównie z badań kolonoskopii dorosłych. Dane dotyczące polipów dziecięcych, polipów związanych ze zapalnymi chorobami jelit oraz innych szczególnych typów patologicznych nie są przedstawione. Uogólnialność modelu na te populacje pozostaje nieprzetestowana. Po szóste, choć eksperymenty ablacyjne i jakościowe wizualizacje są dostępne w celu zilustrowania funkcji każdego modułu, interpretowalność modelu pozostaje ograniczona. Proces podejmowania decyzji w modelach głębokiego uczenia nie jest w pełni przejrzysty, co może wpływać na zaufanie i adopcję klinicystów. Przyszłe prace mogą obejmować techniki wizualizacji oparte na gradientach, aby zapewnić bardziej intuicyjne wyjaśnienia prognoz modeli43.
Pomimo wymienionych powyżej ograniczeń, protokół PWD-Net zapewnia powtarzalne ramy segmentacji polipów, które mogą stanowić podstawę do dalszego rozwoju. Potencjalne kierunki obejmują: rozszerzenie modelu na analizę kolonoskopii wideo poprzez zastosowanie technik modelowania czasowego; dodanie gałęzi klasyfikacji do segmentacji end-to-end i typowania patologicznego; rozszerzenie oceny na większe i bardziej zróżnicowane wieloośrodkowe zbiory danych; oraz badanie integracji z platformami robotów endoluminalnych, gdzie analiza obrazów wspomagana przez AI jest coraz bardziej uznawana za kluczową technologię wspierającą44,45. Pakiet kodu uzupełniający dołączony do tego protokołu ma na celu ułatwienie powielania i adaptacji metody przez inne grupy badawcze.
Autorzy nie mają nic do ujawnienia.
Badanie to zostało sfinansowane przez Narodowy Kluczowy Program R&D Chin (Programy nr 2022YFC3500200 oraz 2022YFC3500204).
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| Adam Optimizer | — | — | Włączone do PyTorch |
| Albumentacje | Zespół Albumentations | v1.0+ | Biblioteka do augmentacji danych |
| Zestaw narzędzi CUDA | NVIDIA | v11.3+ | Przyspieszenie GPU |
| Zestaw danych Kvasir-SEG | SimulaMet | — | https://datasets.simula.no/kvasir-seg/ |
| Matplotlib | Społeczność Matplotlib | v3.4+ | Wizualizacja krzywych treningowych |
| NumPy | Społeczność NumPy | v1.21+ | Obliczenia numeryczne |
| NVIDIA Tesla P100 | NVIDIA | P100-PCIE-16GB | GPU do treningu i wnioskowania |
| OpenCV | Społeczność OpenCV | v4.5+ | Wstępne przetwarzanie obrazu |
| Python | Python Software Foundation | v3.8+ | Język programowania |
| PyTorch | Meta Platforms | v1.12+ | Ramy uczenia głębokiego |
| Obciążniki pretrenowane przez ResNet-50 | PyTorch Model Zoo | — | Pretrained ImageNet-1K |
| Ubuntu | Kanoniczne | 18.04+ | System operacyjny |
Request permission to reuse the text or figures of this JoVE article
Request Permission