Method Article

Sieć segmentacji polipów oparta na splotu wiatrakowym i podwójnej uwadze w diagnostyce przedrakowych zmian jelita grubego

DOI:

10.3791/71178

June 26th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Protokół ten implementuje sieć głębokiego uczenia w kształcie litery U, integrującą konwolucję z kołem wiatraka, podwójną uwagę oraz wieloskalową fuzję do segmentacji polipów jelita grubego.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dokładna segmentacja polipów jelita grubego jest kluczowa dla wczesnej profilaktyki i diagnozy raka jelita grubego. Jednak ze względu na wysoką heterogeniczność polipów pod względem kształtu, rozmiaru i faktury, a także złożoność środowiska jelitowego (takie jak fałdy, refleksje zwierciaste i resztki kałowe), istniejące metody nadal napotykają poważne wyzwania w lokalizacji granic i wykrywaniu małych polipów. Aby rozwiązać te problemy, artykuł proponuje sieć segmentacji polipów opartą na konwolucji wiatraczkowej i podwójnej uwadze (PWD-Net). Proponowana sieć wykorzystuje architekturę enkoder–dekoder w kształcie litery U, gdzie wstępnie wytrenowany ResNet jest wykorzystywany jako enkoder do wyodrębniania wielopoziomowych lokalnych cech. Konkretnie, na warstwie wąskiego gardła wprowadza się Moduł Splotu Wiatraka (PCM), który rejestruje globalną strukturę geometryczną oraz wielokierunkową kontekstową informację polipów za pomocą wielokątowych jąder splotu obracanego. Mechanizm podwójnej uwagi (DAM), który integruje uwagę kanałową i przestrzenną, został zaprojektowany tak, aby adaptacyjnie tłumić szum tła i wzmacniać cechy obszaru polipów. Ponadto stosuje się strategię Multi-scale Feature Fusion (MSF), która łączy głębokie informacje semantyczne z niewielkimi szczegółami granic, zapewniając zarówno kompletność, jak i precyzję wyników segmentacji. Eksperymenty przeprowadzone na zbiorach danych Kvasir-SEG i CVC-ClinicDB wykazują, że PWD-Net osiąga średnie współczynniki Dice 0,865 i 0,944 oraz wyniki IoU odpowiednio 0,765 i 0,892, co znacząco przewyższa istniejące metody najnowocześniejsze. Badania ablacji potwierdzają skuteczność każdego modułu, a oceny między zbiorami danych potwierdzają silną zdolność modelu do uogólnienia. Badanie to dostarcza precyzyjnego i solidnego rozwiązania dla segmentacji polipów klinicznych, oferując istotną wartość we wczesnej diagnozie przedrakowych zmian jelita grubego oraz wspierając interwencję wspomaganą komputerowo.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Rak jelita grubego jest jednym z najczęstszych złośliwych guzów na świecie, z konsekwentnie wysoką częstością występowania i śmiertelnością. Badania wykazały, że większość nowotworów jelita grubego rozwija się w wyniku polipów gruczolatych, co zwykle trwa 10–15 lat, co daje cenne okno czasowe na wczesne wykrycie i interwencję. Wzrost wskaźnika wykrywania gruczolaków (ADR) o 1% może zmniejszyć ryzyko raka jelita grubego o około 3%, znacząco obniżając śmiertelność pacjentów1. Kolonoskopia, uważana za złoty standard w badaniach przesiewowych raka jelita grubego, umożliwia bezpośrednie usuwanie polipów podczas badań, co skutecznie zmniejsza częstość występowania i śmiertelność z powodu nowotworów.

Jednak konwencjonalna kolonoskopia w dużej mierze zależy od doświadczenia i umiejętności endoskopistów. Czynniki takie jak subiektywna ocena, zmęczenie wzrokowe i rozproszenie mogą prowadzić do wskaźnika błędów na poziomie 20%–30%, co bezpośrednio wpływa na skuteczność przesiewową2. Dlatego opracowanie systemów wspomaganego detekcji komputerowej (CAD) do automatycznej segmentacji polipów jelita grubego ma duże znaczenie dla poprawy ADR i zmniejszenia liczby pominiętych diagnoz. Ostatnie badania kliniczne dodatkowo podkreśliły zainteresowanie integracją sztucznej inteligencji w procesach oceny zmian endoskopowych, podkreślając potrzebę stosowania solidnych i powtarzalnych metod segmentacji3.

W ostatnich latach głębokie uczenie osiągnęło znaczące postępy w analizie obrazów medycznych, szczególnie w sieciach neuronowych splotowych (CNN), które wykazują silne możliwości w ekstrakcji i reprezentacji cech dla zadań segmentacji obrazów4. Jako klasyczny model segmentacji obrazów medycznych, U-Net wykorzystuje symetryczną architekturę enkoder–dekoder oraz połączenia pomijające, aby osiągnąć dokładną segmentację na poziomie pikseli, stając się wzorem w tej dziedzinie5. Bazując na U-Net, zaproponowano wiele ulepszonych architektur mających na celu rozwiązanie złożonych zadań segmentacji obrazów medycznych. UNet++ zmniejsza semantyczną lukę między mapami cech kodera i dekodera, wprowadzając zagnieżdżone i gęste połączenia pomijania6. ResUNet++ integruje bloki resztkowe, moduły ściskania i pobudzania, sploty rozszerzające oraz mechanizmy uwagi, osiągając wysoką wydajność w segmentacji polipów7. U2-Net stosuje dwupoziomową, zagnieżdżoną strukturę w kształcie litery U, aby przechwytywać informacje o cechach w wielu skalach8. Niedawno zaproponowano podwójną sieć segmentacji polipów opartą na enkoderze i dekoderze, wykorzystującą równoległe ścieżki kodowania i dekodowania, aby jeszcze bardziej zwiększyć dokładność segmentacji9.

Tymczasem wprowadzenie mechanizmów skupiających uwagę dostarcza nowych rozwiązań dla wzmocnienia cech i tłumienia szumów. Uwaga: U-Net wykorzystuje bramki uwagi, aby skupić się na docelowych regionach, jednocześnie tłumiąc nieistotne informacje tła10. Sieć Dual Attention Network (DANet) adaptacyjnie waży cechy zarówno z wymiarów kanałowych,jak i przestrzennych 11, poprawiając percepcję cech krytycznych. Sieci Triple Attention (TANet) dodatkowo poprawiają wydajność segmentacji poprzez adaptacyjny wybór funkcji wieloskalowych12.

Dzięki sukcesowi architektur Transformer w przetwarzaniu języka naturalnego i widzeniukomputerowym 13, naukowcy zaczęli badać ich zastosowanie w segmentacji obrazów medycznych. TransUNet jako pierwszy zastosował transformator jako enkoder do modelowania długoterminowych zależności efektywnie14. Swin-UNet przyjmuje czystą architekturę Transformera i osiąga efektywną globalną agregację informacji dzięki mechanizmowi przesuniętego okna15. UTNet proponuje architekturę hybrydową, która łączy lokalną zdolność ekstrakcji cech CNN z globalnym modelowaniem Transformers16.

W dziedzinie segmentacji polipów Polyp-PVT wykorzystuje transformator z wizją piramidową do rejestrowania wieloskalowych globalnych informacji semantycznych17, podczas gdy wieloskalowy zagnieżdżony UNet wzmacnia zrozumienie kontekstu poprzez integrację Transformers18. Najnowsze badania analizowały także strategie uczenia się negatywnej korelacji dla segmentacji polipówmiędzydomenowych 19, wzmocnienia segmentacji uzupełnianej Gompertzem20 oraz architektur opartych na uwadze uwzględniających wyznaczanie granic21. Chociaż te podejścia częściowo poprawiają wydajność segmentacji, segmentacja polipów nadal napotyka kilka wyzwań. Po pierwsze, polipy wykazują wysoką heterogeniczność morfologii, rozmiaru i faktury, od mikropolipów mniejszych niż 5 mm po duże polipy przekraczające 30 mm, z kształtami od okrągłych i eliptycznych po bardzo nieregularne. Po drugie, środowisko jelitowe jest złożone i zmienne, gdzie fałdy śluzowe, refleksje zwierciane, resztki kału i resztki jedzenia wprowadzają poważne zakłócenia tła. Po trzecie, wiele polipów ma rozmyte granice, może być częściowo zasłoniętych przez fałdy lub zanurzone w płynach jelitowych, co czyni precyzyjną lokalizację granic niezwykle trudną22.

Istniejące metody nadal mają wyraźne ograniczenia w rozwiązywaniu tych wyzwań. Tradycyjne CNN skutecznie wydobywać lokalne tekstury i cechy krawędzi; Jednak jądra splotu o stałym kwadratie nie są dobrze przystosowane do uchwycenia różnorodnych kształtów geometrycznych23, zwłaszcza dla bardzo nieregularnych polipów, i nie są w stanie skutecznie modelować wielokierunkowych cech geometrycznych. Metody oparte na transformatorach mogą modelować globalne zależności, ale są mniej skuteczne w rejestrowaniu drobnych lokalnych szczegółów i informacji o granicach. Co więcej, ich wysoka złożoność obliczeniowa sprawia, że są mniej odpowiednie do zastosowań klinicznych w czasie rzeczywistym24. Najnowsze podejścia do segmentacji polipów, takie jak PraNet, który wykorzystuje moduły odwrotnej uwagi do doprecyzowania kluczowych regionów25, sieci kaskadowej uwagi kierowanej granicami usprawniające ekstrakcję cech brzegowych26 oraz CAFE-Net, który łączy cechy enkodera i dekodera poprzez mechanizmy cross-attention27, nadal napotykają niewystarczającą reprezentację cech i niedokładną lokalizację granic przy pracy z małymi polipami28, rozmyte granice i złożone tła. Ponadto większość metod pomija morfologię geometryczną i nie wykorzystuje w pełni wielokierunkowej informacji kontekstowej, co skutkuje suboptymalną segmentacją nieregularnie ukształtowanych polipów.

Podsumowując, obecne metody oparte na CNN nie są w stanie uchwycić wielokierunkowych cech geometrycznych ze względu na ich uzależnienie od jąder splotu o stałym kwadratzie. Podejścia oparte na transformatorach oferują modelowanie globalne, ale tracą lokalną precyzję granic i nakładają wysokie koszty obliczeniowe. Tymczasem istniejące strategie fuzji zwiększonej uwagi i wieloskalowej fuzji nie zostały wspólnie zoptymalizowane w ramach jednolitego modelu specjalnie dostosowanego do segmentacji polipów29. Te luki motywują do opracowania metody, która jednocześnie zajmuje się modelowaniem cech geometrycznych, adaptacyjnym tłumieniem szumów oraz integracją cech w skali międzyskalowej.

Aby rozwiązać te problemy, protokół ten prezentuje Sieć Segmentacji Polipów opartą na Pinwheel Conwolution and Dual Attention (PWD-Net). Proponowana sieć integruje modelowanie cech geometrycznych, wielowymiarowe wzmacnianie uwagi oraz wieloskalową fuzję cech, umożliwiając precyzyjną segmentację złożonych polipów. Główne osiągnięcia tej pracy podsumowano następująco: moduł splotu wiatraka (PCM), inspirowany strukturą wiatraka, proponuje nowatorski projekt jądra splotu obrotowego, który uchwyca wielokierunkowe cechy geometryczne polipów poprzez operacje splotowe pod wieloma kątami (0°, 45°, 90°, 135°, 180°, 225°, 270°, oraz 315°). Ten moduł zastępuje konwencjonalną warstwę konwolucyjną na etapie wąskiego gardła, umożliwiając skuteczną percepcję różnorodnych orientacji krawędzi i znacząco poprawiając reprezentację nieregularnie ukształtowanych polipów. Mechanizm podwójnej uwagi (DAM) zwalcza szum tła, taki jak fałdy, odbicia i resztki kału na obrazach kolonoskopii. Zaprojektowano moduł dual-attention integrujący uwagę kanałową i przestrzenną. Wbudowany w połączenia skip, moduł ten adaptacyjnie tłumi interferencje tła i wzmacnia odpowiedzi cech w regionach polipów, wspólnie identyfikując "co" jest ważne (wymiar kanału) oraz "gdzie" znajduje się cel (wymiar przestrzenny), zapewniając, że w kolejnej fuzji uczestniczą tylko wyrafinowane cechy. Strategia fuzji cech wieloskalowych (MSF) zachowuje zarówno głębokie informacje semantyczne, jak i płytkie szczegóły granic dzięki hierarchicznemu mechanizmowi wprowadzonemu w dekoderze. Poprzez stopniowe integrowanie cech enkodera ulepszonych przez DAM z funkcjami dekodera z podwyższonym próbką, strategia ta skutecznie kompensuje utratę szczegółów przestrzennych spowodowaną próbkowaniem w redukcji, umożliwiając dokładne wykrywanie małych polipów i precyzyjne wyznaczanie granic.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Badanie wykorzystuje wyłącznie publicznie dostępne, zanonimizowane zestawy obrazów kolonoskopii (Kvasir-SEG). Nie zbierano nowych danych o ludziach. Zatwierdzenie etyki instytucjonalnej oraz świadoma zgoda pacjenta nie były wymagane, co potwierdzają polityki przeglądu instytucjonalnego dla analiz retrospektywnych zdeanonimowanych zbiorów danych publicznych.

1. Przygotowanie danych

  1. Pobierz zbiór danych Kvasir-SEG z oficjalnego repozytorium33 (https://datasets.simula.no/kvasir-seg/). Zbiór danych zawiera 1000 obrazów polipów z odpowiadającymi mu maskami na poziomie pikseli.
  2. Losowo podziel zbiór danych na zestawy treningowe (800 obrazów), walidacyjne (100 obrazów) i testowe (100 obrazów) z proporcją 8:1:1, używając stałego losowego ziarna (seed = 42). Sprawdź, czy żadne obrazy nie nakładają się na trzy podzbiory, aby zapobiec wyciekom danych.
  3. Zmień rozmiar wszystkich obrazów i odpowiadających im masek do 352 x 352 pikseli, stosując interpolację biliniową dla obrazów i interpolację najbliższych sąsiadów dla masek.
  4. Normalizuj wartości pikseli do [0, 1], dzieląc przez 255, następnie zastosuj średnie odejmowanie ImageNet według kanałów (0,485, 0,456, 0,406) oraz normalizację odchyleń standardowych (0,229, 0,224, 0,225).
  5. Stosuj następujące transformacje augmentacyjne tylko do zbioru treningowego (nie do zestawów walidacyjnych lub testowych): losowy odwrót poziomy (prawdopodobieństwo = 0,5); losowy pionowy flip (prawdopodobieństwo = 0,5); rotacja losowa (zakres: −30° do +30°, prawdopodobieństwo = 0,5); Losowa, wieloskalowa zmiana rozmiaru (współczynnik skali: 0,75 do 1,25, prawdopodobieństwo = 0,5)
    UWAGA: Stosuj identyczne transformacje przestrzenne zarówno na obrazie, jak i na odpowiadającej mu masce, aby zachować wyrównanie. Zweryfikować poprawność augmentacji, wizualnie sprawdzając kilka par rozszerzonych obraz–maska przed rozpoczęciem treningu.

2. Architektura ogólna

UWAGA: Patrz na Rysunek 1 dla szkieletu enkodera–dekodera na poziomie makro PWD-Net oraz Rysunek 2 dla integracji i interakcji modułów podstawowych w przepływie cech. Cała architektura opiera się na enkoderze w kształcie litery U, aby radzić sobie z różnicami skali polipów i interferencjami tła na obrazach kolonoskopii.

  1. Szkielet i ścieżka kodowania (Rysunek 1)
    1. Wykorzystaj ResNet-50 pretrenowanego na ImageNet (pochodzącego z oficjalnego zoo modelu PyTorch) jako szkielet encoder30. Dopracuj wszystkie warstwy enkodera podczas treningu.
    2. Przeprowadzić obraz kolonoskopii wejściowy (zmniejszony do 352 x 352 pikseli) przez pięć etapów resztkowych bloków splotowych, aby wyodrębnić cechy hierarchiczne. Rozdzielczość przestrzenna map cech jest stopniowo redukowana z do na pięciu etapach, podczas gdy wymiary kanałów odpowiednio rosną (64 → 128 → 256 → 512 → 1024).
    3. Na wąskim gardle (najgłębszej warstwie enkodera) zastąp standardową warstwę splotową modułem Pinwheel Convolution Module (PCM, opisanym w Sekcji 3), aby uchwycić globalną morfologię geometryczną oraz wielokierunkową informację kontekstową o niskiej rozdzielczości.
      UWAGA: Pięć etapów enkodera odpowiada standardowym grupom warstw ResNet-50: conv1, warstwa1, warstwa2, warstwa3 oraz warstwa 4. Wagi wstępnie wytrenowane zapewniają solidną inicjalizację cech na niskim i średnim poziomie, skracając czas zbieżności na małych zbiorach danych medycznych.
  2. Kluczowe komponenty i interakcje cech (Rysunek 2 i Rysunek 3)
    1. Zastosuj mechanizm podwójnej uwagi (DAM), opisany w sekcji 4, do wyjścia każdego stopnia enkodera przed przesłaniem go do dekodera za pomocą połączeń pomijania. Ten etap adaptacyjnie tłumi szum tła generowany przez fałdy jelitowe i refleksje zwierciane, jednocześnie wzmacniając odpowiedź cech w regionach polipów. Tylko filtrowane cechy są przekazywane do odpowiadającej warstwy dekodera.
    2. W dekoderze stopniowo przywracaj rozdzielczość przestrzenną poprzez bilinearne upsampling. Na każdej warstwie dekodera łącz podwyższone cechy z poprzedniego etapu dekodera z funkcjami enkodera ulepszanymi przez DAM o tej samej rozdzielczości przestrzennej.
    3. Zastosuj dwie kolejne warstwy splotowe (każdą z nich następuje normalizacja wsadowa i aktywacja ReLU), aby połączyć informacje wieloskalowe. Stanowi to strategię wieloskalowej fuzji cech (MSF) opisaną w Sekcji 5.
      UWAGA: Dekoder przechodzi od głębokich do płytkich warstw (etap 5 → etap 1), zapewniając, że informacje o głębokiej lokalizacji semantycznej i szczegółach płytkich granic są skutecznie integrowane na każdym poziomie.
  3. Generowanie produkcji
    1. Do końcowego wyjścia dekodera należy zastosować warstwę splotową, a następnie funkcję aktywacji sigmoidalnej, aby wygenerować maskę predykcyjną.
    2. Binaryzuj maskę predykcyjną, używając progu 0,5, aby uzyskać końcowy wynik segmentacji, gdzie piksele o przewidywanym prawdopodobieństwie ≥ 0,5 klasyfikuje się jako polip, a pozostałe jako tło.

3. Moduł splotu z kołem wiatraczkowym (Rysunek 3)

  1. Moduł Wiatraczka (PCM) zastępuje standardową konwolucję wąskiego gardła, aby wychwycić wielokierunkowe cechy geometryczne polipów. Zaimplementuj ten moduł w następujący sposób:
    1. Zdefiniuj jądro splotu bazowego W o rozmiarze 3 x 3, gdzie Cjest w kanałach wejściowych i C nawyjściu .
    2. Zdefiniuj zbiór kątów obrotu Θ = {0°, 45°, 90°, ..., 315°}. Dla każdego kąta θ ∈ Θ generujemy obrócone jądro Wθ , stosując obrót oparty na interpolacji biliniowej do W. Wszystkie osiem obracanych jąder dzieli te same parametry bazowe; różni się jedynie układ przestrzenny ciężarów.
    3. Dla każdego kąta θ oblicz mapę cech specyficzną dla kierunku:
      figure-protocol-1
      gdzie X to mapa cech wejściowych.
    4. Zagreguj osiem kierunkowych map cech według kanałowego połączenia wzdłuż osi kanału, tworząc tensor o wymiarach (8 x Cout) x H x W. Następnie zastosowano splot 1 x 1, aby zmniejszyć wymiar kanału z powrotem do Cout, a następnie normalizację wsadową i aktywację ReLU31:
      figure-protocol-2
      UWAGA: Rotacja i interpolacja są wykonywane na wagach jądra, a nie na mapie cech wejściowych. Taka konstrukcja umożliwia parametrycznie efektywną wielokierunkową ekstrakcję cech bez zwiększania rozdzielczości wejściowej. W obecnej implementacji Cin = 1024 oraz Cout = 1024 na etapie wąskiego gardła, co odpowiada wymiarowi kanału wyjściowego warstwy ResNet-504. Zapoznaj się z pakietem kodu uzupełniającego, aby przedstawić pełną implementację.

4. Mechanizm podwójnej uwagi (Rysunek 4)

UWAGA: Mechanizm Dual-Attention (DAM) jest wbudowany w każde połączenie skip, aby tłumić szum tła i wzmacniać cechy regionu polipów zarówno z wymiarów kanałowych, jak i przestrzennych.

  1. Uwaga kanału
    Dział uwagi kanałów identyfikuje, które kanały tematyczne są najbardziej informacyjne. Dla funkcji wejściowej F ∈ RC×H×W:
    1. Skompresuj wymiary przestrzenne za pomocą Global Average Pooling, aby uzyskać deskryptor kanału z ∈ RC×1×1.
    2. Przepuszczenie z przez dwuwarstwowy MLP (w pełni połączone warstwy) o współczynniku redukcji r = 16. Pierwsza warstwa zmniejsza wymiar z C do C/16 wraz z aktywacją ReLU; druga warstwa przywraca go z C/16 do C z aktywacją Sigmoidu, tworząc wektor masy kanału Ac:
      figure-protocol-3
      gdzie δ oznacza ReLU, a σ oznacza Sigmoid.
  2. Uwaga przestrzenna
    Gąłąź uwagi przestrzennej lokalizuje obszary docelowe:
    1. Zastosuj zarówno maksymalną pulę, jak i średnią pulację wzdłuż wymiaru kanału, aby wygenerować dwie dwuwymiarowe mapy cech o rozmiarze 1 x H x W.
    2. Połącz obie mapy wzdłuż osi kanału, tworząc tensor 2 x H x W. Zastosuj warstwę splotową 7 x 7, a następnie aktywację sigmoidalną, aby uzyskać mapę przestrzenną wag As ∈ R1×H×W:
      figure-protocol-4
  3. Fuzja cech
    1. Połącz wyjście kanału i uwagi przestrzennej z cechą wejściową poprzez mnożenie po elementach:
      figure-protocol-5
      gdzie α i β to przyswójone współczynniki równowagi, oba inicjalizowane do 0,5 i aktualizowane wspólnie z parametrami sieci poprzez optymalizację opartą na gradientach podczas treningu.
      UWAGA: Zapoznaj się z pakietem kodu uzupełniającego (dam_module.py), aby poznać pełną implementację.

5. Fuzja cech wieloskalowych

  1. Zastosuj strategię wieloskalowej fuzji cech (MSF) w dekodzie, aby przeciwdziałać utracie szczegółów przestrzennych w głębokich cechach. Na każdym etapie dekodera wykonaj następujące czynności:
  2. Zwiększyć próbkę mapy cech względem poprzedniego etapu dekodera o czynnik 2, używając interpolacji biliniowej.
  3. Łącz zwiększone elementy z funkcjami enkodera ulepszonym przez DAM o odpowiedniej rozdzielczości przestrzennej wzdłuż osi kanału.
  4. Zastosuj dwie kolejne warstwy splotowe 3 x 3 (każda z nich następuje normalizacja wsadowa i aktywacja ReLU32), aby połączyć złożone cechy.
    UWAGA: To międzypoziomowe fuzji zapewnia, że szczegóły graniczne polipów (dostarczane przez płytkie cechy enkodera) oraz lokalizacja semantyczna (zapewniana przez głębokie cechy) są jednocześnie zachowane, generując drobnoziarniste wyniki segmentacji.

6. Funkcja utraty i konfiguracja treningowa

  1. Funkcja straty
    1. Przyjmuje się hybrydową funkcję utraty L_total do wspólnej optymalizacji sieci, rozwiązując powszechną nierównowagę klas pierwszego planu i tła w segmentacji polipów.
      Binarna utrata entropii krzyżowej (LBCE) mierzy dokładność klasyfikacji na poziomie pikseli:
      figure-protocol-6
      gdzie N to całkowita liczba pikseli, yi ∈ {0,1} to etykieta prawdziwości, a ŷi ∈ [0,1] to przewidywane prawdopodobieństwo.
    2. Utrata kości (LDice) ilościowo określa podobieństwo zbioru między przewidywanym a obszarem rzeczywistości podstawowej:
      figure-protocol-7
      figure-protocol-8
      gdzie ε jest czynnikiem wygładzania (ustawionym na 1 x 10⁻5), aby uniknąć dzielenia przez zero.
      Ustaw λ = 0,5, aby zrównoważyć wkład dwóch składników strat.
  2. Konfiguracja treningowa
    1. Zainicjalizuj enkoder za pomocą wag ResNet-50 z pretrenowanym przez ImageNet. Inicjalizuj wszystkie warstwy dekodera, parametry PCM i DAM za pomocą jednorodnej inicjalizacji Kaiming.
    2. Konfiguruj optymalizator i harmonogram treningów w następujący sposób. Użyj optymalizatora Adama z β₁ = 0,9 i β₂ = 0,999. Ustaw początkową szybkość uczenia się na 1 x 10⁻⁴. Zastosuj harmonogram szybkości uczenia się w wyżarzaniu cosinusowym zT max = 50 i ηmin = 1 x 10⁻⁶. Użyj partii 16 i trenuj model przez 50 epok.
    3. Wytrenuj model przez 50 epok na zbiorze treningowym (800 obrazów). Na koniec każdej epoki oceniaj model na zbiorze walidacyjnym (100 obrazów), używając współczynnika Dice jako głównej metryki monitorującej.
    4. Zapisz punkt kontrolny modelu, który osiąga najwyższy współczynnik kości na zbiorze walidacyjnym. Użyj tego punktu kontrolnego jako ostatecznego modelu dla wszystkich kolejnych ocen na zbiorze testowym.
      UWAGA: Wcześniejsze zatrzymanie nie jest wyraźnie stosowane. Strategia wyboru punktów kontrolnych oparta na najlepszej walidacji i kostkach służy jako kryterium wyboru modelu. Wszystkie eksperymenty prowadzone są w środowisku sprzętowym i programowym określonym w Tabeli Materiałów. Trening przez 50 epok na 800 obrazach trwa około 2 godzin w opisanej konfiguracji. Wszystkie zgłoszone wyniki są uzyskiwane z jednego uruchomienia treningowego z użyciem określonego losowego seeda (seed = 42). Zapoznaj się z pakietem kodu uzupełniającego, aby poznać kompletny skrypt treningowy.

7. Pseudokod

  1. Użyj Algorytmu 1 jako pełnej mapy workflow dla PWD Net. Dopasuj PCM, DAM, główną architekturę i bloki potoku treningowego w algorytmie z odpowiadającymi plikami w dodatkowym pakiecie kodu.
  2. Zaimplementuj blok PCM pokazany w liniach 4 do 12. Zdefiniuj jądro splotu o zasadzie 3 x 3 i wygeneruj osiem obracających się ziaren o kątach 0°, 45°, 90°, 135°, 180°, 225°, 270° i 315°, stosując interpolację biliniową.
  3. Zachowaj te same podstawowe parametry dla wszystkich rotacyjnych jąder PCM. Dla każdego kąta obrotu oblicz mapę cech specyficznych dla jednego kierunku.
  4. Łącz osiem map cech PCM wzdłuż wymiaru kanału. Zastosuj splot 1 x 1, normalizację wsadową i aktywację ReLU, aby przywrócić oryginalny wymiar kanału.
  5. Implementuj blok DAM pokazany w linijkach 14 do 19. Zastosuj Global Average Pooling (Global Average Pooling), aby wygenerować deskryptor kanału, a następnie przepuścić go przez dwuwarstwowy MLP o współczynniku redukcji 16, aby uzyskać wagi kanału.
  6. Wygeneruj mapę uwagi przestrzennej, stosując pulowanie średnich kanałów i maksymalnego poolingu do funkcji wejściowej. Połącz obie mapy i przetworz je w splot 7 x 7, po którym następuje aktywacja Sigmoidal.
  7. Połącz kanał DAM i wyjścia uwagi przestrzennej z funkcją wejściową, stosując mnożenie po elementach. Waż dwie mapy uwagi współczynnikami przyswajalnymi α i β, oba zainicjalizowane do 0,5.
  8. Zbuduj główną architekturę PWD Net pokazaną w liniach 21 do 32. Przepuścić obraz wejściowy przez pięć etapów pretrenowanego enkodera ResNet 50, aby uzyskać e1 do e5, z rozdzielczością przestrzenną malejącą z H x W do H/32 x W/32.
  9. Zastosuj PCM do e5 w miejscu wąskiego gardła. Zastosuj DAM do e1 na e4 przed wysłaniem tych funkcji do dekodera przez pominięcie połączeń.
  10. Rozkoduj mapę cech od głębokich do płytkich warstw. Na każdym poziomie dekodera należy zwiększyć próbkę poprzedniej cechy, połączyć ją z odpowiednią funkcją DAM enhanced encer i zastosować DoubleConv do fuzji cech.
  11. Wygeneruj wyjście segmentacji z konwolucją 1 x 1, po której następuje aktywacja Sigmoidal. Użyj powstałej mapy prawdopodobieństwa według pikseli jako przewidywanej maski.
  12. Wdroż pętlę treningową pokazaną w liniach 34 do 39. W każdej epoce przeprowadź propagację do przodu przez PWD Net i oblicz przewidywaną maskę.
  13. Oblicz stratę treningową jako 0,5 x stratę BCE plus 0,5 x stratę kości. Aktualizuj wszystkie parametry uczone za pomocą optymalizatora Adama poprzez propagację wsteczną.

Algorytm 1: Segmentacja polipów PWD-Net
1: Input: Obraz kolonoskopii I ∈ RH×W×3
2: Wyjście: Maska segmentacji M ∈ {0,1}(H×W)
3:
4: funkcja PCM(X) ▷ Moduł konwolucyjny Pinwheel
5: Zdefiniuj jądro bazowe W (3 x 3), kąty Θ = {0°, 45°, ..., 315°}
6: dla każdego θ ∈ Θ do
7: Wθ ← BilinearRotate(W, θ) ▷ Rotate kernel
8: Yθ ← Conv2d(X, Wθ) ▷ Cechy specyficzne dla kierunku
9: koniec dla
10: Yout ← ReLU(BN(Conv1 x 1(Concat({Yθ})))) ▷ Agregat
11: wyjść
12: funkcja końcowa
13:
14: funkcja DAM(F) ▷ Mechanizm podwójnej uwagi
15: Ac ← Sigmoid(MLP(AvgPool(F))) ▷ Uwaga kanałowa (r=16)
16: As ← Sigmoid(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Uwaga przestrzenna
17: F' ← F ⊗ (α · Ac + β ·A s) ▷ Fuzja z uczalnym α, β (init=0,5)
18: powrót F'
19: funkcja końcowa
20:
21: funkcja PWD-Net(I)
22: Koder: e1, e2, e3, e4, e5 ← ResNet50_Stages(I) ▷ 5-stopniowy pretrenowany enkoder
23: Wąskie gardło: b ← PCM(e5) ▷ Zastosowanie PCM przy wąskim gardle
24: Pomiń połączenia: si ← DAM(ei) dla i = 1, 2, 3, 4 ▷ Funkcje enkodera filtrów
25: Dekoder:
26: d4 ← Podwójna konwersacja (Concat(Up(b), s4))
27: d3 ← podwójna konwic(koncat(Up(d4), s3))
28: d2 ← DoubleConv(Concat(Up(d3), s2))
29: d1 ← DoubleConv(Concat(Up(d2), s1))
30: M ← Sigmoid(Conv1 x 1(d1))
31: powrót M
32: funkcja końcowa
33:
34: Szkolenie:
35: dla każdej epoki do
36: M̂ ← PWD-Net(I)
37: L ← 0,5 · BCE(M̂, Mgt) + 0,5 · DiceLoss(M̂, Mgt) ▷ λ = 0,5

38: Aktualizuj parametry za pomocą propagacji wstecznej (Adam optymalizujr)
39: koniec dla

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Układ eksperymentalny
Zbiór danych

Zestaw danych Kvasir SEG został wykorzystany do oceny zachowania segmentacyjnego sieci PWD na obrazach kolonoskopiowych o heterogenicznym wyglądzie polipa. Zbiór danych zawiera obrazy polipów adnotowanych o długości 1 000 pikseli i obejmuje zmienność rozmiaru polipa, kształtu, tekstury, oświetlenia oraz złożoności tła, co czyni go odpowiednim do oceny wykrywania małych celów, lokalizacji granic oraz odporności na interferencje wzrokowe. Zbiór danych podzielono na podzbiory treningowe, walidacyjne i testowe, a ostateczny zestaw testowy służył wyłącznie do oceny wydajności. Rozkład obrazów jest podsumowany w Tabeli 1.

Szczegóły implementacji

Ustawienia implementacyjne wymagane do powtarzalności są podsumowane w Tabeli 2, a pełne szczegóły proceduralne przedstawiono w krokach Przygotowania Danych oraz w sekcji 5.2 Protokołu. Do interpretacji wyników wszystkie zgłoszone eksperymenty wykorzystywały tę samą rozdzielczość wejściową, środowisko sprzętowe oraz warunki oceny wymienione w Tabeli Materiałów. Raportowane wartości opierają się na wybranym punkcie kontrolnym Dice walidacji z pojedynczego uruchomienia z użyciem seed = 42, dlatego wyniki należy interpretować jako wydajność przy stałym podziale eksperymentalnym, a nie jako uśrednione wyniki walidacji krzyżowej.

Metryki ewaluacyjne

Wydajność segmentacji oceniano za pomocą współczynnika kostki, przecięcia przez sumę, dokładności na poziomie pikseli oraz szybkości wnioskowania. Współczynnik kości i przecięcie przez sumę były używane jako główne metryki oparte na nakładaniu się, ponieważ bezpośrednio odzwierciedlają zgodność między przewidywaną maską a obszarem polipów z adnotacjami ekspertów. Dokładność na poziomie pikseli była zgłaszana jako miara uzupełniająca, ponieważ obrazy kolonoskopiowe często zawierają duże obszary tła. Uwzględniono szybkość wnioskowania, podawaną jako klatki na sekundę, aby ocenić, czy model zachowuje praktyczną efektywność obliczeniową przy jednoczesnej poprawie jakości segmentacji.

Porównanie z istniejącymi metodami
Aby wykazać zachowanie i skuteczność PWD-Net, przeprowadza się porównanie z pięcioma reprezentatywnymi metodami segmentacji polipów: CBSA (Channel-Boosted Spatial Attention network)34, FSSA (Feature-Shared Spatial Attention network), MSF (Multi-Scale Fusion network), Pinwheel-Conv (Pinwheel Convolution baseline without attention lub fusion modules) oraz PolaLinear (Polarized Linear attention network). Wszystkie metody porównań są ponownie implementowane przy użyciu oficjalnie udostępnionych kodów źródłowych i trenowane na tym samym zbiorze treningowym Kvasir-SEG (800 obrazów) pod identycznym wstępnym przetwarzaniem, rozdzielczością wejściową (352 x 352) oraz ustawieniami ewaluacji, aby zapewnić uczciwe porównanie. Tabela 3 przedstawia ilościowe wyniki na zestawie testowym.

Jak pokazano w Tabeli 3, PWD-Net osiąga współczynnik Dice 0,865 oraz IoU 0,765, co oznacza poprawę o 1,8% w Dice i 4,8% w IoU w porównaniu z następną najlepszą metodą (CBSA). Warto zauważyć, że PWD-Net osiąga to z parametrami 9,1 mln, w porównaniu do 18,4 mln dla CBSA, co wskazuje na korzystną efektywność. Chociaż PolaLinear i Pinwheel-Conv oferują szybsze wnioskowanie (odpowiednio 79 i 72 FPS), ich dokładność segmentacji jest zauważalnie niższa, co sugeruje, że PWD-Net zapewnia rozsądną równowagę między dokładnością a kosztami obliczeniowymi dla ocenianego zbioru danych. Aby zilustrować jakościowe zachowanie segmentacji, wybiera się pięć reprezentatywnych próbek testowych obejmujących małe polipy, duże polipy, złożone tła i rozmyte granice do porównania wizualnego. Rysunek 5 przedstawia wyniki segmentacji czterech wybranych metod porównawczych (CBSA, FSSA, MSF i PWD-Net) obok faktów z terenu. Każda kolumna predykcji jest oznaczona odpowiadającą nazwą metody. Pinwheel-Conv i PolaLinear są pominięte w tym rysunku dla przejrzystości wizualnej, ponieważ ich wydajność ilościowa jest znacznie niższa; ten rysunek przedstawia zatem wybrany podzbiór metod porównywanych w Tabeli 3.

Jak pokazano na Rysunku 5, w scenariuszach z małymi polipami (pierwszy i piąty wiersz) FSSA i MSF wykazują przegapione wykrycia, podczas gdy PWD-Net rejestruje cele pełniej. W scenariuszach z dużymi polipami (drugi i trzeci rząd) CBSA i FSSA powodują zauważalne nieprawidłowości granic, podczas gdy PWD-Net generuje łagodniejsze granice. W scenariuszu z rozmytą granicą (czwarty rząd) PWD-Net demonstruje skuteczne tłumienie szumu tła za pomocą mechanizmu podwójnej uwagi.

Badanie ablacji
Aby przeanalizować wkład każdego kluczowego komponentu w PWD-Net, przeprowadza się systematyczne badanie ablacji. Używając ResNet-50 jako enkodera szkieletowego do utworzenia modelu bazowego, moduł Pinwheel Convolution (Pinwheel), Dual-Attention Mechanism (Dual-Attn) oraz Multi-Scale Feature Fusion (MSF) są wprowadzane stopniowo. Tabela 4 podsumowuje wyniki ilościowe.

Kluczowe ustalenia z Tabeli 4 można podsumować następująco. Po pierwsze, dodanie dowolnego pojedynczego modułu poprawia wydajność modelu bazowego. Mechanizm Dual-Attention przynosi najbardziej znaczące korzyści (kości: +2,0%, IoU: +2,7%), wspierając skuteczność adaptacyjnego tłumienia szumów. Moduł Pinwheel Convolution Module poprawia Dice o 1,6%, co wskazuje na korzyści z wielokierunkowej ekstrakcji cech dla nieregularnych kształtów polipów. Po drugie, połączenie Windwheel Convolution i Dual-Attention Mechanism dodatkowo zwiększa wydajność do Dice = 0,858 i IoU = 0,748, co sugeruje komplementarność między tymi dwoma modułami. Wreszcie, kompletny PWD-Net (integrujący wszystkie trzy moduły) osiąga najlepszą zaobserwowaną wydajność (Dice = 0,865, IoU = 0,765), z poprawą odpowiednio o 3,3% i 6,0% w porównaniu z bazowym poziomem, co pokazuje wkład każdego proponowanego komponentu w tym zbiorze danych.

Analiza procesu szkoleniowego
Aby zilustrować dynamikę treningu i cechy zbieżności PWD-Net, kluczowe wskaźniki wydajności są rejestrowane i wizualizowane w ciągu 50 epok treningowych. Rysunek 6 pokazuje zmiany funkcji strat, współczynnika kości, IoU oraz dokładności podczas treningu.

Jak pokazano na Rysunku 6(a), zarówno utrata treningowa, jak i strata walidacji szybko maleją w ciągu pierwszych 10 epok, a następnie stopniowo się stabilizują. Strata walidacji pozostaje nieco wyższa niż utrata treningowa przez cały czas, ale obie krzywe podążają za spójnym trendem z niewielką przerwą, co wskazuje, że model nie cierpi na poważne przekwalifikowanie. Rysunek 6(b) pokazuje, że współczynnik Dice gwałtownie rośnie na wczesnym etapie treningowym, zbiega się po około 30. epoce i stabilizuje się powyżej 0,86. Krzywa IoU na Rysunku 6(c) wykazuje podobny trend wzrostu, osiągając około 0,765 w późnej fazie treningowej. Rysunek 6(d) wskazuje, że dokładność zbiega powyżej 94%. Stabilne trendy walidacyjne w środkowym i późnym etapie treningu sugerują, że przyjęta strategia augmentacji danych oraz harmonogram wyżarzania kosinusowego przyczyniają się do ograniczania nadmiernego dopasowania tego zbioru danych.

Wydajność we wszystkich rozmiarach polipów
Aby dokładniej ocenić zastosowanie PWD-Net w różnych scenariuszach klinicznych, zestaw testowy (100 obrazów) dzieli się na trzy kategorie według stosunku powierzchni polipów do całkowitej powierzchni obrazu: małe polipy (< 5%), polipy średnie (5%–30%) oraz duże polipy (> 30%). Ta klasyfikacja odzwierciedla wpływ skali polipowej na trudność segmentacji. Tabela 5 przedstawia wyniki ilościowe dla każdej kategorii. Jak pokazano w Tabeli 5, PWD-Net osiąga najlepsze wyniki w kategorii średnich polipów (Dice = 0,882, IoU = 0,790), co jest zgodne z większą reprezentacją tej kategorii (54 na 100 obrazów testowych). Wydajność na dużych polipach pozostaje na porównywalnym poziomie (Dice = 0,861, IoU = 0,760). Wydajność na małych polipach jest stosunkowo niższa (Dice = 0,812, IoU = 0,685), głównie dlatego, że małe cele zajmują niewielką część obrazu i są bardziej podatne na szum tła przy rzadszych informacjach o granicach.

Wyniki te sugerują, że wielokierunkowa zdolność przechwytywania cech modułu Pinwheel Convolution oraz przestrzenna lokalizacja mechanizmu Dual-Attention przyczyniają się do utrzymania rozsądnej jakości segmentacji na różnych skalach polipów na ocenianym zbiorze testowym.

figure-results-1
Rysunek 1: Ramy modelu PWD-Net. Ogólna struktura proponowanej Sieci Segmentacji Polipów opartej na Pinwheel Convolution and Dual Attention (PWD-Net), ilustrująca enkoder (ResNet-50), wąskie gardło (PCM), połączenia pomijania wzmocnione przez DAM, dekoder MSF oraz generowanie wyników dla segmentacji polipów kolorektalnych. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.

figure-results-2
Rysunek 2: Ogólny schemat architektury PWD-Net. Szczegółowy schemat blokowy pełnej architektury PWD-Net, pokazujący pięciostopniowy enkoder ResNet-50, wąskie gardło PCM, połączenia DAM skip, wieloskalowy dekoder fuzji funkcji oraz końcowe generowanie predykcji. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.

figure-results-3
Rysunek 3: Schemat modułu splotu wiatraka. Schemat strukturalny i operacyjny modułu Pinwheel Convolution Module, demonstrujący wielokątowe obracane jądra splotowe, obrót oparty na interpolacji biliniowej, konkatenację kanałów oraz agregację splotową 1 x 1. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.

figure-results-4
Rysunek 4: Diagram struktury mechanizmu podwójnej uwagi. Schemat architektoniczny DAM, pokazujący równoległą gałąź uwagi kanałowej (Global Average Pooling → MLP z redukcyjnym stosunkiem r = 16 → Sigmoid) oraz gałąź uwagi przestrzennej (pooling kanałowy → splot 7 x 7 → Sigmoid), a następnie ważoną fuzję z uczalnymi współczynnikami α i β. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.

figure-results-5
Rysunek 5: Jakościowe porównanie wyników segmentacji. Każdy wiersz reprezentuje próbkę testową. Kolumny od lewej do prawej: Input image, Ground Truth, CBSA, FSSA, MSF oraz PWD-Net (nasz). Pinwheel-Conv i PolaLinear zostały pominięte z tego rysunku dla przejrzystości wizualnej; patrz Tabela 3 dla pełnego porównania ilościowego. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.

figure-results-6
Rysunek 6: Krzywe treningowe PWD-Net na przestrzeni 50 epok. (a) Utrata treningowa i walidacja. (b) Współczynnik kości. (c) Przecięcie nad Unią (IoU). (d) Dokładność na poziomie pikseli. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.

Podzbiór treningowyLiczba próbekProporcja
Skład kolejowy80080%
Zbiór walidacyjny10010%
Zestaw testowy10010%
Komplet1000100%

Tabela 1: Statystyki zbioru danych. Rozkład podzielony zbioru danych dla zbioru Kvasir-SEG (łącznie 1000 obrazów), pokazując liczbę obrazów oraz proporcje przypisane do podzbiorów treningowych, walidacyjnych i testowych (losowe ziarno = 42).

KategoriaElement parametruUstawianie parametrów
Ramy Deep LearningRamyPyTorch
Środowisko sprzętoweGPUNVIDIA Tesla P100
Metoda przyspieszaniaPrzyspieszenie GPUCUDA
Ustawienia wejścioweRozmiar obrazu wejściowego352 × 352
Format obrazuFormat obrazuObraz RGB
OptymalizatorOptymalizatorAdam
Początkowy wskaźnik uczenia sięPoczątkowy LR1 × 10⁻4
Wielkość partiiWielkość partii16
Epoki szkolenioweEpoki50
Funkcja stratyFunkcja stratyUtrata kości + BCE

Tabela 2: Parametry eksperymentalne. Parametry eksperymentalne do treningu i oceny PWD-Net. Zapoznaj się z krokami przygotowania danych oraz sekcją 5.2 protokołu, aby poznać pełną procedurę wdrożenia krok po kroku.

MetodaKości ↑IoU ↑Dokładność ↑Parametry (M) ↓FPS ↑
CBSA0.84660.7170.932518.436
FSSA0.71090.5510.90129.861
MSF0.73370.5850.908611.554
Pinwheel-Conv0.80070.67420.94017.972
PolaLinear0.72130.57070.91136.679
PWD-Net (Nasz)0.8650.76510.94789.163

Tabela 3: Wyniki porównań ilościowych. Ilościowe porównanie PWD-Net z pięcioma istniejącymi metodami segmentacji polipów na zestawie testowym Kvasir-SEG (100 obrazów). Wszystkie metody są oceniane na podstawie identycznych podziałów danych, wstępnego przetwarzania i rozdzielczości wejściowej (352 x 352). ↑ oznacza, że wyższe jest lepsze; ↓ oznacza, że niżej jest lepiej. Metody oznaczone * oznaczają wyniki cytowane z pierwotnej publikacji, a nie ponownie wdrożone.

KonfiguracjaWiatraczekDual-AttnMSFKości ↑IoU ↑
Baza×××0.8320.705
+ Wiatrak××0.8480.725
+ Dual-Attn××0.8520.732
+ MSF××0.8440.72
+ Wiatrak + Dual-Attn×0.8580.748
Pełne (PWD-Net)0.8650.765

Tabela 4: Wyniki badań ablacji. Wyniki badania ablacji na zestawie testowym Kvasir-SEG, pokazujące inkrementalny wkład modułu Pinwheel Convolution Module (Pinwheel), Dual-Attention Mechanism (Dual-Attn) oraz Multi-Scale Feature Fusion (MSF) do bazowego enkodera ResNet-50.

Typ polipaLiczbaKości ↑IoU ↑
Małe polipy (< 5%)210.8120.685
Średnie polipy (5%–30%)540.8820.79
Duże polipy (> 30%)250.8610.76

Tabela 5: Wydajność PWD-Net na różnych typach polipów. Wydajność PWD-Net na różnych kategoriach wielkości polipów w zbiorze testowym Kvasir-SEG (100 obrazów). Wielkość polipa definiuje się jako stosunek powierzchni polipa do całkowitej powierzchni obrazu.

Plik uzupełniający: Skompresowane archiwum zawierające implementację frameworka PWD-Net. Plik zawiera model.py definiowanie architektury sieciowej za pomocą Pinwheel Convolution Module (PCM) i Dual-Attention Mechanism (DAM), train.py implementację pipeline'u ładowania danych, funkcji utraty i procedury treningowej, test.py do wnioskowania i oceny modeli na zestawach testowych oraz requirements.txt listę wszystkich wymaganych bibliotek Pythona i ich odpowiadających im wersji. Kliknij tutaj, aby pobrać ten plik.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Kilka wyborów projektowych w protokole PWD-Net jest kluczowych dla uzyskania wiarygodnych wyników segmentacji i wymaga szczególnej uwagi podczas implementacji. Po pierwsze, wybór i inicjalizacja szkieletu enkodera bezpośrednio wpływają na zachowanie zbieżności i ostateczną wydajność. Protokół wykorzystuje enkoder ResNet-50 wstępnie wytrenowany na ImageNet, który zapewnia solidną inicjalizację funkcji na niskim i średnim poziomie. Jest to szczególnie istotne w zadaniach segmentacji obrazów medycznych, gdzie dostępne dane treningowe są ograniczone (800 obrazów w obecnym badaniu). Precyzyjne dostrojenie wszystkich warstw enkodera, zamiast ich zamrażania, pozwala sieci dostosować wcześniej wytrenowane cechy do specyficznych cech obrazów kolonoskopii, takich jak tekstury śluzowe i refleksje zwierciane. Po drugie, umieszczenie każdego modułu rdzeniowego w architekturze jest celowe. Moduł Wiatraczkowy (PCM) jest umieszczony w wąskim gardle, gdzie rozdzielczość przestrzenna jest najniższa, ale informacje semantyczne najbogatsze, co umożliwia efektywne rejestrowanie globalnych wzorców geometrycznych bez nadmiernych kosztów obliczeniowych. Mechanizm Dual-Attention (DAM) jest wbudowany w połączenia skip, a nie w dekoderze, co zapewnia tłumienie szumów tła przed przesłaniem cech do dekodera, zapobiegając propagacji skażonych elementów przez stopnie fuzji. Badanie ablacji (Tabela 4) potwierdza ten projekt: DAM zapewnia największy indywidualny wzrost wydajności (kości: +2,0%), co potwierdza znaczenie wczesnego tłumienia szumów w pipeline cech. Po trzecie, hybrydowa funkcja strat (0,5 · BCE + 0,5 · kości) równoważy dokładność klasyfikacji na poziomie pikseli z optymalizacją nakładania się na poziomie regionu. To połączenie jest szczególnie istotne dla segmentacji polipów, gdzie powszechna jest nierównowaga klas z pierwszym planem a tłem. Równowaga równa (λ = 0,5) jest przyjmowana domyślnie; dostosowanie tego stosunku może być konieczne dla zbiorów danych o różnych rozkładach klas (patrz Rozwiązywanie problemów poniżej).

Modyfikacje i rozwiązywanie problemów
Poniżej przedstawiono modyfikacje i wytyczne dotyczące rozwiązywania problemów w celu dostosowania protokołu do różnych warunków eksperymentalnych. Stosując protokół do zbiorów danych o różnych rozdzielczościach obrazu lub rozkładzie rozmiarów polipów, rozdzielczość wejściowa (352 x 352) może wymagać korekty. Większe rozmiary wejść mogą poprawić wykrywanie małych polipów, kosztem zwiększonego zużycia pamięci i zmniejszenia szybkości wnioskowania. Jeśli utrata treningu nie zbiega w ciągu 50 epok, rozważ zmniejszenie początkowej szybkości uczenia (np. do 5 x 10⁻5) lub wydłużenie długości cyklu wyżarzania kosinusowego. Jeśli model wykazuje wysokie wskaźniki fałszywie pozytywnych wyników w obszarach z silnymi odbiciami zwiercianymi lub fałdami błony śluzowej, zwiększenie wagi składowej utraty kostek (np. λ = 0,4 dla BCE, 0,6 dla kości) może poprawić precyzję granic kosztem dokładności na poziomie pikseli. Natomiast jeśli model podsegmentuje małe polipy, zwiększenie wagi BCE może pomóc. Liczba kątów obrotu w PCM (obecnie osiem, od 0° do 315° w krokach 45°) stanowi równowagę między zasięgiem kierunkowym a kosztami obliczeniowymi. Redukcja do czterech kątów (0°, 90°, 180°, 270°) zmniejsza ilość obliczeń, ale może zmniejszyć wrażliwość na skośne granice polipów. Współczynnik redukcji r = 16 w gałęzi uwagi kanału DAM podąża za konwencją ustaloną przez wcześniejsze sieci ściskania i wzbudzania32; Mniejsze stosunki (np. r = 8) zwiększają pojemność modelu, ale mogą prowadzić do nadmiernego dopasowania na małych zbiorach danych. Dla zbiorów danych znacznie większych niż Kvasir-SEG rozważ zwiększenie rozmiaru partii i odpowiednio treningowe epoki, a także monitorowanie metryk walidacji, aby określić odpowiedni punkt zatrzymania.

Znaczenie w odniesieniu do alternatywnych metod
Architektura PWD-Net odpowiada na specyficzne ograniczenia istniejących podejść poprzez trzy komplementarne moduły. W porównaniu z metodami opartymi na standardowych jądrach splotu kwadratowego, PCM zapewnia czułość kierunkową dzięki wielokątowym obracanym jądrom, umożliwiając lepszą adaptację do nieregularnej i zróżnicowanej morfologii polipów jelita grubego. W porównaniu z jednowymiarowymi mechanizmami uwagi (np. uwaga tylko kanałowa w sieciach ściskania i wzbudzania33), DAM wspólnie modeluje znaczenie kanałowe i przestrzenne, oferując bardziej kompleksowe tłumienie szumu w złożonym środowisku kolonoskopii. W porównaniu z architekturami opartymi na transformatorze, takimi jak TransUNet34 i Polyp-PVT35, które oferują silne globalne modelowanie, ale przy wyższych kosztach obliczeniowych, PWD-Net osiąga konkurencyjne wyniki przy stosunkowo kompaktowym rozmiarze modelu (9,1 mln parametrów) i praktycznej szybkości wnioskowania (63 FPS), jak przedstawiono w Tabeli 3.

Należy zauważyć, że porównania przedstawione w tym badaniu (Tabela 3) są przeprowadzane w warunkach kontrolowanych z identycznymi podziałami danych, wstępnym przetwarzaniem i protokołami ewaluacji. Zaobserwowane różnice w wydajności są specyficzne dla zestawu testowego Kvasir-SEG (100 obrazów) użytego w tym badaniu i mogą nie być bezpośrednio uogólnione na inne zbiory danych ani środowiska kliniczne. Szersze porównanie, uwzględniające dodatkowe ustalone punkty bazowe (np. PraNet36, ResUNet++37) w ramach standaryzowanych benchmarków wielozbiorowych danych, dodatkowo wzmocniłoby dowody i jest planowane do przyszłych prac. Najnowsze prace nad architekturą podwójnego enkodera-dekodera dla segmentacji polipów38 wykazały potencjał równoległych ścieżek kodowania i dekodowania. Architektura PWD-Net różni się koncentracją na rotacyjnym modelowaniu geometrycznym i filtrowaniu podwójnej uwagi w ramach jednego potoku enkodera-dekodera, reprezentując uzupełniającą filozofię projektowania.

Należy zauważyć kilka ważnych ograniczeń tego badania. Po pierwsze, jeśli chodzi o zakres eksperymentalny, obecne badanie przedstawia wyniki wyłącznie na zbiorze danych Kvasir-SEG, z jednym losowym podziałem na 800 obrazów treningowych, 100 walidacyjnych i 100 testowych. Rozmiar zestawu testowego (100 obrazów) jest stosunkowo niewielki, a raportowany jest tylko jeden test treningowy bez powtarzających się eksperymentów lub weryfikacji krzyżowej. W konsekwencji raportowane wskaźniki wydajności mogą podlegać odchyleniom związanym z konkretnym podziałem danych. Przyszłe prace powinny obejmować k-krotną walidację krzyżową lub wielokrotne losowe podziały z raportowanymi odchyleniami standardowymi, aby zapewnić bardziej solidne szacunki wydajności. Po drugie, PCM wprowadza dodatkowe obciążenie obliczeniowe poprzez rotację i agregację jądra pod wieloma kątami. Chociaż cały model pozostaje kompaktowy (9,1 mln parametrów), wdrożenie na urządzeniach o ograniczonych zasobach w środowiskach klinicznych może wymagać dalszej optymalizacji za pomocą technik takich jak destylacja wiedzy czy przycinanie modelu. Po trzecie, model jest trenowany i oceniany wyłącznie na obrazach statycznych, podczas gdy kolonoskopia kliniczna polega na strumieniach wideo w czasie rzeczywistym, w których wygląd, rozmiar i punkt widzenia polipów zmieniają się dynamicznie w kolejnych klatkach. Chociaż prędkość wnioskowania 63 FPS jest zgodna z rzeczywistymi liczbami klatek, sama ta miara nie stanowi klinicznej weryfikacji. Prospektywna walidacja na podstawie danych wideo endoskopowych, badań czytniczych oraz analiz końcowych klinicznych będzie konieczna, zanim można będzie stwierdzić gotowość kliniczną 39,40,41. Obecne prace należy rozumieć jako wkład metodologiczny, a nie klinicznie zweryfikowany system.

Po czwarte, kliniczna ścieżka translacji dla segmentacji polipów wspomaganej przez AI wykracza daleko poza dokładność segmentacji. Najnowsze przeglądy podkreśliły, że zaawansowane narzędzia obrazowania i analizy muszą być zintegrowane z szerszymi procesami endoluminalnymi, w tym klasyfikacją zmian, etapowaniem i planowaniem leczenia. Obecny protokół koncentruje się wyłącznie na segmentacji polipów binarnych i nie obejmuje klasyfikacjipatologicznej 42 (np. polipów gruczolatych vs. hiperplastycznych) ani oceny ryzyka nowotworów, które są niezbędne do podejmowania decyzji klinicznych. Po piąte, zbiory danych użyte w tym badaniu pochodzą głównie z badań kolonoskopii dorosłych. Dane dotyczące polipów dziecięcych, polipów związanych ze zapalnymi chorobami jelit oraz innych szczególnych typów patologicznych nie są przedstawione. Uogólnialność modelu na te populacje pozostaje nieprzetestowana. Po szóste, choć eksperymenty ablacyjne i jakościowe wizualizacje są dostępne w celu zilustrowania funkcji każdego modułu, interpretowalność modelu pozostaje ograniczona. Proces podejmowania decyzji w modelach głębokiego uczenia nie jest w pełni przejrzysty, co może wpływać na zaufanie i adopcję klinicystów. Przyszłe prace mogą obejmować techniki wizualizacji oparte na gradientach, aby zapewnić bardziej intuicyjne wyjaśnienia prognoz modeli43.

Pomimo wymienionych powyżej ograniczeń, protokół PWD-Net zapewnia powtarzalne ramy segmentacji polipów, które mogą stanowić podstawę do dalszego rozwoju. Potencjalne kierunki obejmują: rozszerzenie modelu na analizę kolonoskopii wideo poprzez zastosowanie technik modelowania czasowego; dodanie gałęzi klasyfikacji do segmentacji end-to-end i typowania patologicznego; rozszerzenie oceny na większe i bardziej zróżnicowane wieloośrodkowe zbiory danych; oraz badanie integracji z platformami robotów endoluminalnych, gdzie analiza obrazów wspomagana przez AI jest coraz bardziej uznawana za kluczową technologię wspierającą44,45. Pakiet kodu uzupełniający dołączony do tego protokołu ma na celu ułatwienie powielania i adaptacji metody przez inne grupy badawcze.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy nie mają nic do ujawnienia.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Badanie to zostało sfinansowane przez Narodowy Kluczowy Program R&D Chin (Programy nr 2022YFC3500200 oraz 2022YFC3500204).

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Adam OptimizerWłączone do PyTorch
AlbumentacjeZespół Albumentationsv1.0+Biblioteka do augmentacji danych
Zestaw narzędzi CUDANVIDIAv11.3+Przyspieszenie GPU
Zestaw danych Kvasir-SEGSimulaMethttps://datasets.simula.no/kvasir-seg/
MatplotlibSpołeczność Matplotlibv3.4+Wizualizacja krzywych treningowych
NumPySpołeczność NumPyv1.21+Obliczenia numeryczne
NVIDIA Tesla P100NVIDIAP100-PCIE-16GBGPU do treningu i wnioskowania
OpenCVSpołeczność OpenCVv4.5+Wstępne przetwarzanie obrazu
PythonPython Software Foundationv3.8+Język programowania
PyTorchMeta Platformsv1.12+Ramy uczenia głębokiego
Obciążniki pretrenowane przez ResNet-50PyTorch Model ZooPretrained ImageNet-1K
UbuntuKanoniczne18.04+System operacyjny

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

MedicinePolyp segmentationPinwheel convolutionDual attention mechanismMulti scale feature fusiondeep learningMedical image processingPrecancerous lesion diagnosis

Related Articles