Kolorektal Prekanser Lezyon Teşhisi için Pinwheel Konvolüsyonu ve Çift Dikkat Temelli Poyp Segmentasyon Ağı

Ning Du; Xinqi Liu; Li Ji; Chuijie Wang

doi:10.3791/71178

Method Article

Kolorektal Prekanser Lezyon Teşhisi için Pinwheel Konvolüsyonu ve Çift Dikkat Temelli Poyp Segmentasyon Ağı

DOI:

10.3791/71178

⸱

June 26th, 2026

Ning Du*¹ , Xinqi Liu*¹ , Li Ji² , Chuijie Wang³

¹National Cancer Center/National Clinical Research Center for Cancer/Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, ²Xinglin College of Liaoning University of Traditional Chinese Medicine, ³Liaoning University of Traditional Chinese Medicine Affiliated Hospital

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu protokol, kolorektal polipleri segment etmek için pinwheel konvolüsyon, çift dikkat ve çok ölçekli füzyon entegre eden U şeklinde derin öğrenme ağı uygular.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Kolorektal poliplerin doğru segmentasyonu, kolorektal kanserin erken önlenmesi ve teşhisi için çok önemlidir. Ancak, poliplerin şekil, boyut ve doku açısından yüksek heterojenliği ile bağırsak ortamının karmaşıklığı (kıvrımlar, speküler yansımalar ve dışkı kalıntıları gibi) nedeniyle, mevcut yöntemler sınır lokalizasyonu ve küçük polip tespitinde hâlâ önemli zorluklarla karşı karşıyadır. Bu sorunları ele almak için, bu makale Pinwheel Konvolüsyonu ve Çift Dikkat (PWD-Net) temelli bir Polyp Segmentasyon Ağı önermektedir. Önerilen ağ, çok katmanlı yerel özellikleri çıkarmak için önceden eğitilmiş bir ResNet'in kodlayıcı olarak kullanıldığı U şeklinde kodlayıcı–kodlayıcı mimarisi benimser. Özellikle, dar boğaz katmanında poliplerin küresel geometrik yapısını ve çok yönlü bağlamsal bilgisini çok açılı dönmüş konvolüsyon çekirdekleri aracılığıyla yakalamak için bir Pinwheel Konvolüsyon Modülü (PCM) tanıtılır. Kanal dikkati ve mekânsal dikkati entegre eden Çift Dikkat Mekanizması (DAM), arka plan gürültüsünü adapte edici şekilde bastırmak ve polip bölgesi özelliklerini artırmak için tasarlanmıştır. Ayrıca, derin anlamsal bilgiyi sığ sınır detaylarıyla birleştiren Çok ölçekli Özellik Birleşimi (MSF) stratejisi uygulanarak segmentasyon sonuçlarının hem tamlığını hem de hassasiyetini garanti eder. Kvasir-SEG ve CVC-ClinicDB veri setleri üzerinde yapılan deneyler, PWD-Net'in ortalama zar katsayıları sırasıyla 0.865 ve 0.944 ile IoU puanları 0.765 ve 0.892 olarak elde ettiğini ve mevcut en son yöntemleri önemli ölçüde geride bıraktığını göstermektedir. Ablasyon çalışmaları her modülün etkinliğini doğrular, veri kümeleri çapraz değerlendirmeler ise modelin güçlü genelleştirme yeteneğini doğrular. Bu çalışma, klinik polip segmentasyonu için yüksek hassasiyetli ve sağlam bir çözüm sunar; kolorektal prekanser lezyonlarının erken teşhisi için önemli bir değer sunar ve bilgisayar destekli müdahaleyi destekler.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Kolorektal kanser, dünya genelinde en yaygın malign tümörlerden biridir ve sürekli yüksek insidans ve ölüm oranlarına sahiptir. Çalışmalar, kolorektal kanserlerin çoğunun adenomatoz poliplerden geliştiğini göstermiştir; bu süreç genellikle 10–15 yıl sürer ve erken tespit ve müdahale için değerli bir zaman aralığı sağlar. Adenom tespit oranında (ADR) %1 artış, kolorektal kanser riskini yaklaşık %3 azaltabilir ve hasta ölümünü önemli ölçüde^{düşürür 1}. Kolonoskopi, kolorektal kanser taramasında altın standart olarak kabul edilir ve muayene sırasında poliplerin doğrudan çıkarılmasını sağlar ve böylece kanser sisidanlığını ve ölümünü etkili bir şekilde azaltır.

Ancak, geleneksel kolonoskopi büyük ölçüde endoskopistlerin deneyim ve beceri seviyesine bağlıdır. Öznel yargı, görsel yorgunluk ve dikkat dağınıklığı gibi faktörler, doğrudan tarama etkinliğini etkileyen %20–%30 kaçırma oranına yol^{açabilir 2}. Bu nedenle, kolorektal poliplerin otomatik segmentasyonu için bilgisayar destekli tespit (CAD) sistemlerinin geliştirilmesi, ADR'yi iyileştirmek ve kaçırılan tanıları azaltmak için önemli bir öneme sahiptir. Son klinik anketler, yapay zekanın endoskopik lezyon değerlendirme iş akışlarına entegre edilmesine olan ilgiyi daha da vurgulamış ve sağlam ve tekrarlanabilir segmentasyon yöntemlerine olan ihtiyacı^{pekiştirmiştir 3}.

Son yıllarda, derin öğrenme tıbbi görüntü analizinde, özellikle görüntü segmentasyon görevleri için özellik çıkarma ve temsil etme konusunda güçlü yetenek gösteren konvolüsyon sinir ağlarında (CNN) dikkat çekici ilerlemeler^{kaydetmiştir 4}. Klasik bir tıbbi görüntü segmentasyon modeli olarak, U-Net, doğru piksel düzeyinde segmentasyon sağlamak için simetrik kodlayıcı–kodlayıcı mimarisi ve atlama bağlantıları kullanır ve bu alanda bir kıyaslama haline^{gelir 5}. U-Net üzerine inşa edilerek, karmaşık tıbbi görüntü segmentasyon görevlerini çözmek için birçok geliştirilmiş mimari önerilmiştir. UNet++, iç içe ve yoğun atlama bağlantıları getirerek kodlayıcı ve kodlayıcı özellik haritaları arasındaki anlamsal boşluğu^{azaltır 6}. ResUNet++ kalıntı blokları, sıkıştırma ve uyarılma modüllerini, genişletilmiş konvolüsyonları ve dikkat mekanizmalarını entegre ederek polip^{segmentasyonunda güçlü performans sağlar 7}. U^2-Net, çok ölçekli özellik bilgisini yakalamak için iki seviyeli, iç içe U-şekilli bir yapı^{benimser 8}. Daha yakın zamanda, paralel kodlama ve çözme yollarını kullanarak segmentasyon doğruluğunu daha da artıran çift kodlayıcı-kodlayıcı tabanlı derin polip segmentasyon ağı^{önerilmiştir9}.

Bu arada, dikkat mekanizmalarının tanıtılması özellik geliştirme ve gürültü bastırma için yeni çözümler sunuyor. Dikkat U-Net, hedef bölgelere odaklanmak için dikkat kapıları kullanırken, alakasız arka plan bilgilerini^{bastırır 10}. Çift Dikkat Ağı (DANet), hem kanal hem de mekansal^boyutlardan özellikleri uyarlayarak kritik özelliklerin algılanmasını iyileştirir. Üçlü Dikkat Ağları (TANet), çok ölçekli özelliklerin adaptif seçimi yoluyla segmentasyon performansını daha da artırır¹².

Transformer mimarilerinin doğal dil işleme ve bilgisayar görme^13'teki başarısıyla birlikte, araştırmacılar tıbbi görüntü segmentasyonunda uygulamalarını araştırmaya başladılar. TransUNet, uzun menzilli bağımlılıkları etkili şekilde modellemek için bir Transformer kodlayıcı olarak ilk kez^{kullanan 14} oldu. Swin-UNet, saf bir Transformer mimarisini benimser ve kaydırılmış pencere^{mekanizması 15} aracılığıyla verimli küresel bilgi toplama sağlar. UTNet, CNN'lerin yerel özellik çıkarma yeteneğini Transformers^16'nın küresel modelleme yeteneğiyle birleştiren hibrit bir mimari önermektedir.

Polip segmentasyonu alanında, Polyp-PVT piramit vizyonlu bir Transformer kullanarak çok ölçekli küresel anlamsal^{bilgiyi 17} yakalarken, çok ölçekli iç içe UNet, Transformers^18'i entegre ederek bağlamsal anlayışı artırır. Son çalışmalar ayrıca, çapraz alan polip segmentasyonu¹⁹, Gompertz ile artırılmış segmentasyon^{geliştirme 20} ve sınır rehberliğini içeren dikkat temelli mimariler için negatif korelasyon öğrenme^{stratejilerini de incelemiştir.} Bu yaklaşımlar segmentasyon performansını bir dereceye kadar iyileştirse de, polip segmentasyonu hâlâ çeşitli zorluklarla karşı karşıyadır. Birincisi, polipler morfoloji, boyut ve doku açısından yüksek heterojenlik gösterir; 5 mm'den küçük mikropoliplerden 30 mm'yi geçen büyük poliplere kadar değişir; şekilleri dairesel ve eliptikten çok düzensiz formlara kadar değişir. İkinci olarak, bağırsak ortamı karmaşık ve değişkendir; mukoza kıvrımları, speküler yansımalar, dışkı kalıntıları ve gıda kalıntıları ciddi arka plan girişimi oluşturur. Üçüncüsü, birçok polipin sınırları bulanıklaşmış, kısmen kıvrımlarla kapanmış olabilir veya bağırsak sıvılarının içinde kalmış olabilir, bu da kesin sınır lokalizasyonunu son derece^{zorlaştırır 22}.

Mevcut yöntemler bu zorlukları ele almada hâlâ açık sınırlamalar sunmaktadır. Geleneksel CNN'ler yerel doku ve kenar özelliklerini çıkarmada etkilidir; Ancak, sabit kare konvolüsyon çekirdekler, özellikle çok düzensiz polipler için çeşitli geometrik^{şekilleri yakalamak için uygun değildir ve} çok yönlü geometrik özellikleri etkili bir şekilde modelleyemez. Transformator tabanlı yöntemler küresel bağımlılıkları modelleyebilir ancak ince yerel detayları ve sınır bilgilerini yakalamada daha az etkilidir. Ayrıca, yüksek hesaplama karmaşıklıkları onları gerçek zamanlı klinik uygulamalar için daha az uygun^{kılar 24}. Son zamanlarda kullanılan polip segmentasyon yaklaşımları, örneğin anahtar^{bölgeleri 25} iyileştirmek için ters dikkat modüllerini kullanan, sınır özellik çıkarımı^26'yı geliştiren sınır yönlendirmeli kaskad dikkat ağları ve çapraz dikkat mekanizmalarıyla kodlayıcı ve çözücü özelliklerini^birleştiren CAFE-Net, küçük poliplerle uğraşırken hâlâ yeterli özellik temsili ve yanlış sınır lokalizasyonu^{ile karşılaşmaktadır 28}, bulanık sınırlar ve karmaşık arka planlar. Ayrıca, çoğu yöntem geometrik morfolojiyi ihmal eder ve çok yönlü bağlamsal bilgiyi tam olarak kullanamaz, bu da düzensiz şekilli poliplerin optimal olmayan segmentasyonuna yol açar.

Özetle, mevcut CNN tabanlı yöntemler, sabit kare konvolüsyon çekirdeklerine dayandıkları için çok yönlü geometrik özellikleri yakalama yeteneğinden yoksundur. Transformator tabanlı yaklaşımlar küresel modelleme sunar ancak yerel sınır hassasiyetinden ödün verir ve yüksek hesaplama maliyetleri getirir. Bu arada, mevcut dikkat artırılmış ve çok ölçekli füzyon stratejileri, polip segmentasyonu için özel olarak tasarlanmış birleşik bir çerçeve^{içinde ortak olarak optimize edilmemiştir 29}. Bu boşluklar, geometrik özellik modellemesi, uyarlanabilir gürültü bastırma ve çapraz ölçekli özellik entegrasyonunu aynı anda ele alan bir yöntemin geliştirilmesini motive etmektedir.

Bu sorunları ele almak için bu protokol, Pinwheel Konvolüsyonu ve Çift Dikkat (PWD-Net) tabanlı bir Polyp Segmentasyon Ağı sunar. Önerilen ağ, geometrik özellik modellemesi, çok boyutlu dikkat geliştirme ve çok ölçekli özellik birleşmesini entegre ederek karmaşık poliplerin hassas segmentasyonunu mümkün kılar. Bu çalışmanın başlıca katkıları şu şekilde özetlenmiştir: pinwheel konvolüsyon modülü (PCM), pinwheel'in yapısından esinlenerek, poliplerin çok yönlü geometrik özelliklerini çoklu açılarda (0°, 45°, 90°, 135°, 180°, 225°, 270° ve 315°) konvolüsyon işlemleriyle yakalanan yeni bir döner konvolüsyon çekirdeği tasarımı önerilmiştir. Bu modül, darboğaz aşamasında geleneksel konvolüsyon katmanının yerini alır; çeşitli kenar yönlerinin etkili algılanmasını sağlar ve düzensiz şekilli poliplerin temsilini önemli ölçüde iyileştirir. Çift dikkat mekanizması (DAM), kolonoskopi görüntülerindeki kıvrımlar, yansımalar ve dışkı kalıntıları gibi arka plan gürültüsünü ele alır. Kanal dikkati ve mekânsal dikkati entegre eden çift dikkat modülü tasarlanır. Atlama bağlantılarına gömülü olan bu modül, arka plan parazitini uyarlayıcı şekilde bastırır ve polip bölgelerinde "neyin" önemli olduğunu (kanal boyutu) ve hedefin "nerede" bulunduğunu (mekansal boyut) birlikte belirleyerek özellik yanıtlarını artırır; böylece sonraki füzyonda yalnızca rafine özelliklerin yer almasını sağlar. Çok ölçekli özellik birleşme stratejisi (MSF), çözücüye getirilen hiyerarşik mekanizma aracılığıyla hem derin anlamsal bilgiyi hem de sığ sınır detaylarını korur. DAM ile güçlendirilmiş kodlayıcı özelliklerini yukarı örneklenmiş kodlayıcı özellikleriyle aşamalı olarak entegre ederek, bu strateji downssampling nedeniyle oluşan mekansal detay kaybını etkili bir şekilde telafi eder; böylece küçük poliplerin doğru tespiti ve kesin sınır çizimleri sağlanır.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu çalışma yalnızca kamuya açık olan, anonimleştirilmiş kolonoskopi görüntü veri setlerini (Kvasir-SEG) kullanır. Yeni insan denek veri toplanmadı. Kurumsal etik onayı ve bilgilendirilmiş hasta onayı gerekmemişti; bu, kimliği açıklanmış kamu veri setlerinin retrospektif analizleri için kurumsal inceleme politikalarıyla da doğrulanmıştır.

1. Veri Hazırlığı

Kvasir-SEG veri setini resmi depodan33 indirin (https://datasets.simula.no/kvasir-seg/). Veri seti, karşılık gelen piksel düzeyinde yer gerçekliği maskeleriyle birlikte 1.000 polip görüntüsü içerir.
Veri setini, sabit rastgele tohum (tohum = 42) kullanılarak 8:1:1 oranında eğitim (800 resim), doğrulama (100 resim) ve test (100 resim) setlerine rastgele bölerek dağıtın. Veri sızıntısını önlemek için üç alt küme arasında hiçbir görüntünün örtüşmediğini doğrulayın.
Tüm görüntüleri ve ilgili maskeleri, görüntüler için bilineşer interpolasyon ve maskeler için en yakın komşu interpolasyonu kullanarak 352 x 352 piksele yeniden boyutlandırılır.
Piksel değerlerini 255'e bölerek [0, 1] olarak normalize edin, ardından ImageNet kanal bazında ortalama çıkarma (0.485, 0.456, 0.406) ve standart sapma normalizasyonu (0.229, 0.224, 0.225) uygulansın.
Aşağıdaki artırma dönüşümlerini yalnızca eğitim kümesine uygulayın (doğrulama veya test setlerine değil): rastgele yatay çevirme (olasılık = 0.5); rastgele dikey flip (olasılık = 0.5); rastgele dönüş (aralık: −30° ile +30°, olasılık = 0.5); rastgele çok ölçekli boyutlandırma (ölçek faktörü: 0,75 ila 1,25, olasılık = 0,5)
NOT: Hizalanmayı korumak için hem görüntüye hem de ona karşılık gelen maskeye aynı uzaysal dönüşümler uygulayın. Eğitime başlamadan önce birkaç artırılmış görüntü-maske çiftini görsel olarak inceleyerek artırma doğruluğunu doğrulayın.

2. Genel Mimari

NOT: PWD-Net'in makro seviyeli kodlayıcı–kodlayıcı omurgası için Şekil 1'e ve özellik akışındaki çekirdek modüllerin entegrasyonu ve etkileşimi için Şekil 2'ye bakınız. Genel mimari, kolonoskopi görüntülerindeki poliplerin ölçek değişimlerini ve arka plan parazitini yönetmek için U şeklinde kodlayıcı-çözücü tasarımını takip eder.

Omurga ve Kodlama Yolu (Şekil 1)
1. ImageNet'te önceden eğitilmiş bir ResNet-50 (resmi PyTorch model hayvanat bahçesinden alınmış) omurga kodlayıcısı olarak kullanın30. Eğitim sırasında tüm kodlayıcı katmanlarını ince ayarlayın.
2. Giriş kolonoskopi görüntüsünü (352 x 352 piksele boyutlandırılmış) beş aşamalı kalıntı konvolüsyon bloklardan geçirerek hiyerarşik özellikleri çıkarın. Özellik haritalarının mekansal çözünürlüğü beş aşamadan aşağı salınırken, kanal boyutları buna göre artarken (64 → 128 → 256 → 512 → 1024).
3. Darboğazda (en derin kodlayıcı katman), standart konvolüsyon katmanı Pinwheel Konvolüsyon Modülü (PCM, Bölüm 3'te açıklanmıştır) ile değiştirerek küresel geometrik morfolojiyi ve çok yönlü bağlamsal bilgileri düşük çözünürlükte yakalayabilirsiniz.
  NOT: Beş kodlayıcı aşaması standart ResNet-50 katman gruplarına karşılık gelir: conv1, layer1, layer2, layer3 ve layer4. Önceden eğitilen ağırlıklar, düşük ve orta seviye özelliklerin sağlam başlatılması sağlar ve küçük tıbbi veri setlerinde yakınsama süresini azaltır.
Ana Bileşenler ve Özellik Etkileşimi (Şekil 2 ve Şekil 3)
1. Her kodlayıcı aşamasının çıkışına Çiftli Dikkat Mekanizmasını (DAM, Bölüm 4'te açıklanmıştır) uygulayın, ardından atlama bağlantılarıyla kodlayıcıya iletin. Bu adım, bağırsak kıvrımları ve speküler yansımalar tarafından üretilen arka plan gürültüsünü uyarlayıcı olarak bastırırken, polip bölgelerindeki özellik yanıtını artırır. Sadece filtrelenen özellikler ilgili kod çözücü katmanına aktarılır.
2. Kod çözücüde, bilinezik yukarı örnekleme yoluyla mekânsal çözünürlüğü kademeli olarak geri kazandırılır. Her kod çözücü katmanında, önceki kodlayıcı aşamasından yukarı örnekler alınan özellikleri, aynı mekansal çözünürlükte DAM ile geliştirilmiş kodlayıcı özellikleriyle birleştirin.
3. Çok ölçekli bilgiyi birleştirmek için ardışık iki konvolüsyon katman uygulayın (her biri parti normalizasyonu ve ReLU aktivasyonu takip eder). Bu, Bölüm 5'te tanımlanan Çok Ölçekli Özellik Füzyon (MSF) stratejisini oluşturur.
  NOT: Kod çözücü, derin katmanlardan sığ katmanlara (5. aşama → 1. aşama) ilerler, böylece derin anlamsal lokalizasyon bilgisi ile sığ sınır detay bilgisi her seviyede etkili şekilde entegre edilir.
Üretim Üretimi
1. Son dekoder çıktısına konvolüsyon katman ve ardından Sigmoid aktivasyon fonksiyonu uygulayarak tahmin maskesi oluşturulur.
2. Tahmin maskesini 0.5 eşik kullanarak ikili hale getirerek nihai segmentasyon sonucunu elde edin; burada tahmin edilen olasılık ≥ 0.5'e sahip pikseller polip olarak, kalan pikseller ise arka plan olarak sınıflandırılır.

3. Pinwheel Konvolüsyon Modülü (Şekil 3)

Pinwheel Konvolüsyon Modülü (PCM), poliplerin çok yönlü geometrik özelliklerini yakalamak için standart darboğaz konvolüsyonunun yerini alır. Bu modülü aşağıdaki şekilde uygulayın:
1. Giriş kanallarında C ve_çıkış çıkış kanallarında C olan 3 x 3 boyutunda bir temel konvolüsyon çekirdeği W tanımlayın.
2. Dönme açıları kümesini tanımlayın: Θ = {0°, 45°, 90°, ..., 315°}. Her açı θ ∈ Θ için, W'ye bilinear enterpolasyon tabanlı dönüş uygulayarak dönen çekirdek W_θ oluşturulur. Tüm sekiz döndürülmüş çekirdek aynı temel parametreleri paylaşır; sadece ağırlıkların mekansal düzeni farklıdır.
3. Her θ açısı için, yöne özgü özellik haritasını hesaplayın:
  
  burada X, giriş özellik haritasıdır.
4. Kanal ekseni boyunca kanal başına bağlanma ile sekiz yönlü özellik haritasını birleştirerek boyutlu (8 x C_çıkış) x H x W boyutlu bir tensör elde edin. Sonra kanal boyutunu tekrar C_out'a indirmek için 1 x 1 konvolüsyon uygulanır, ardından toplu normalizasyon ve ReLU^{aktivasyonu 31} yapılır:
  
  NOT: Döndürme ve enterpolasyon çekirdeği ağırlıkları üzerinde yapılır, giriş özellik haritasında değil. Bu tasarım, giriş çözünürlüğünü artırmadan parametre açısından verimli çok yönlü özellik çıkarımı sağlar. Mevcut uygulamada, dar boğaz aşamasında C_in = 1024 ve C_out = 1024 olarak ResNet-50 katman 4'ün çıkış kanalı boyutuyla eşleşir. Tam uygulama için ek kod paketine bakabilirsiniz.

4. Çift Dikkat Mekanizması (Şekil 4)

NOT: Çift Dikkat Mekanizması (DAM), her atlama bağlantısına yerleştirilerek arka plan gürültüsünü bastırır ve hem kanal hem de mekansal boyutlardan polip bölgesi özelliklerini güçlendirir.

Kanal Dikkati
Kanal dikkat dalı, hangi özellik kanallarının en bilgilendirici olduğunu belirler. F ∈ R^C×H×W giriş özelliği verildiğinde:
1. Küresel Ortalama Havuzlama ile uzamsal boyutları sıkıştırarak kanal tanımlayıcısı z ∈ R^C×1×1 elde edin.
2. z'yi iki katmanlı bir MLP (tam bağlı katmanlar) üzerinden geçirin, indirgeme oranı r = 16. İlk katman, ReLU aktivasyonuyla boyutu C'den C/16'ya indirir; ikinci katman, Sigmoid aktivasyonuyla C/16'dan C'ye geri kazandırarak kanal ağırlık vektörü A_c'yi üretir:
  
  burada δ ReLU'yu ve σ Sigmoid'i gösterir.
Mekânsal Dikkat
Mekânsal dikkat dalı, hedef bölgelerin nerede olduğunu belirler:
1. Kanal boyutu boyunca hem maksimum havuzlama hem de ortalama havuzlama uygulayarak 1 x H x W boyutunda iki 2D özellik haritası oluşturulur.
2. İki haritayı kanal ekseni boyunca birleştirerek 2 x H x W tensör oluşturun. 7 x 7 konvolüsyon katman uygulayın, ardından Sigmoid aktivasyonu uygulanarak A_s ∈ R^1×H×W mekânsal ağırlık haritası oluşturulur:
Özellik Fusion
1. Kanal ve mekansal dikkat çıkışlarını giriş özelliğiyle eleman bazında çarpma yoluyla birleştirin:
  
  burada α ve β, öğrenilebilir denge katsayılarıdır; her ikisi de 0.5'e başlatılır ve eğitim sırasında gradyan tabanlı optimizasyon yoluyla ağ parametreleriyle ortaklaşa güncellenir.
  NOT: Tam uygulama için ek kod paketine (dam_module.py) bakınız.

5. Çok Ölçekli Özellik Füzyonu

Derin özelliklerdeki mekansal detay kaybını gidermek için dekoderda çok ölçekli özellik birleşimi (MSF) stratejisini uygulayın. Her kod çözücü aşamasında aşağıdakileri gerçekleştirin:
Önceki dekoder aşamasından özellik haritasını bilinear interpolasyon kullanarak 2 kat yukarı örnekleyin.
Yukarı örneklenen özellikleri, kanal ekseni boyunca ilgili mekansal çözünürlüğe sahip DAM ile geliştirilmiş kodlayıcı özellikleriyle birleştirin.
Birleştirilmiş özellikleri birleştirmek için ardışık iki 3 x 3 konvolüsyon katman uygulayın (her biri parti normalizasyonu ve ReLU^{aktivasyonu 32} ile takip edilir).
NOT: Bu çapraz seviye birleşim, poliplerin sınır detaylarının (sığ kodlayıcı özellikler tarafından sağlanan) ve anlamsal lokalizasyonun (derin özellikler tarafından sağlanan) aynı anda korunmasını sağlar ve ince taneli segmentasyon sonuçları üretir.

6. Kayıp Fonksiyonu ve Eğitim Konfigürasyonu

Kayıp Fonksiyonu
1. Ağı ortak optimize etmek için kullanılan hibrit kayıp fonksiyonu L_total benimsenir ve polip segmentasyonunda yaygın ön plan–arka plan sınıf dengesizliğini giderir.
  İkili Çapraz Entropi Kaybı (_{L BCE}) piksel düzeyinde sınıflandırma doğruluğunu ölçür:
  
  burada N toplam piksel sayısıdır, y_i ∈ {0,1} zemin-gerçeklik etiketi ve ŷ_i ∈ [0,1] tahmin edilen olasılıktır.
2. Zar Kaybı (L_Zar), tahmin edilen ve temel gerçeklik bölgeleri arasındaki küme benzerliğini nicelikle ölçülür:
  
  burada ε, sıfıra bölünmeyi önlemek için bir düzgünleştirme faktörüdür (1 x 10⁻⁵ olarak ayarlanmıştır).
  İki kayıp teriminin katkılarını dengelemek için λ = 0.5 ayarlayın.
Eğitim Konfigürasyonu
1. Kodlayıcıyı ImageNet önceden eğitilmiş ResNet-50 ağırlıklarıyla başlatın. Tüm kod çözücü katmanlarını, PCM ve DAM parametrelerini Kaiming uniform başlatma yöntemiyle başlatın.
2. Optimize ediciyi ve eğitim programını aşağıdaki gibi yapılandırın. Adam optimizer'ını β₁ = 0.9 ve β₂ = 0.999 ile kullanın. Başlangıç öğrenme hızını 1 x 10⁻⁴ olarak ayarlayın. T_max = 50 ve η_min = 1 x 10⁻⁶ olan kosinüs tavlama öğrenme hızı takvimi uygulan. 16 adet parti boyutu kullanın ve modeli 50 dönem için eğitin.
3. Modeli eğitim setinde 50 dönem boyunca eğitin (800 fotoğraf). Her dönemin sonunda, modeli doğrulama setinde (100 görsel) birincil izleme metriği olarak Zar katsayısı kullanarak değerlendirin.
4. Doğrulama setinde en yüksek zar katsayısına ulaşan model kontrol noktasını kaydedin. Bu kontrol noktasını, test setindeki tüm sonraki değerlendirmeler için nihai model olarak kullanın.
  NOT: Erken durma açıkça uygulanmaz. En iyi doğrulama-zar kontrol noktası seçim stratejisi, model seçim kriteri olarak hizmet eder. Tüm deneyler, Materyal Tablosu'nda belirtilen donanım ve yazılım ortamı kullanılarak yapılır. 800 görüntü üzerinde 50 dönem için eğitim tarif edilen konfigürasyonda yaklaşık 2 saat sürer. Tüm bildirilen sonuçlar, belirtilen rastgele tohum kullanılarak tek bir antrenman çalışmasından elde edilir (tohum = 42). Tam eğitim betikleri için ek kod paketine bakabilirsiniz.

7. Sözde kod

Algoritma 1'i PWD Net için tam iş akışı haritası olarak kullanın. Algoritmadaki PCM, DAM, ana mimari ve eğitim boru hattı bloklarını ek kod paketindeki ilgili dosyalarla eşleştirin.
4 ile 12. satırlarda gösterilen PCM bloğunu uygulayın. Bir taban 3 x 3 konvolüsyon çekirdeği tanımlayın ve bilinear interpolasyon kullanarak 0°, 45°, 90°, 135°, 180°, 225°, 270° ve 315° pozisyonlarında sekiz döner çekirdek oluşturun.
Tüm döndürülmüş PCM çekirdekleri için aynı öğrenilebilir temel parametreleri koruyun. Her dönüş açısı için, bir yöne özgü özellik haritası hesaplayın.
Kanal boyutu boyunca sekiz PCM özellik haritasını birleştirin. Orijinal kanal boyutunu geri kazanmak için 1 x 1 konvolüsyon, toplu normalizasyon ve ReLU aktivasyonu uygulayın.
14 ile 19 numaralı hatlarda gösterilen DAM bloğunu uygulayın. Kanal tanımlayıcısını oluşturmak için Küresel Ortalama Havuzlama uygulayın, ardından kanal ağırlıklarını elde etmek için 16 indirme oranıyla iki katmanlı bir MLP'den geçirin.
Giriş özelliğine kanal bazında ortalama havuzlama ve maksimum havuzlama uygulayarak mekânsal dikkat haritası oluşturun. İki haritayı birleştirin ve 7 x 7 konvolüsyonla ardından Sigmoid aktivasyonu ile işleyin.
DAM kanalı ve mekansal dikkat çıkışlarını giriş özelliğiyle eleman bazında çarpma yöntemiyle birleştirin. İki dikkat haritasını öğrenilebilir katsayıları α ve β ile ağırlıklandırın, her ikisi de 0.5 olarak başlangıldırılmış.
21'den 32'ye kadar olan satırlarda gösterilen ana PWD Net mimarisini inşa edin. Giriş görüntüsünü önceden eğitilmiş bir ResNet 50 kodlayıcısının beş aşamasından geçirerek e1'den e5'e kadar uzanır ve mekânsal çözünürlük H x W'den H/32 x W/32'ye düşürülür.
Dar boğazda e5'e PCM uygulayın. Bu özellikleri atlama bağlantılarıyla kodlayıcıya göndermeden önce e1'den e4'e DAM uygulayın.
Özellik haritasını derinden sığ katmanlara doğru çöz. Her kodlayıcı seviyesinde önceki özelliği örnekleyin, ilgili DAM geliştirilmiş kodlayıcı özelliğiyle birleştirin ve özellik birleşimi için DoubleConv uygulayın.
Segmentasyon çıktısını 1 x 1 konvolüsyonla ve ardından Sigmoid aktivasyonu ile üretin. Ortaya çıkan piksel bazında olasılık haritasını tahmin edilen maske olarak kullanın.
34 ile 39 numaralı hatlarda gösterilen eğitim döngüsünü uygulayın. Her dönemde, PWD Ağı üzerinden ileriye yayılmayı çalıştırın ve tahmin edilen maske hesaplanın.
Antrenman kaybını 0.5 x BCE kaybı artı 0.5 x zar kaybı olarak hesaplayın. Tüm öğrenilebilir parametreleri Adam optimizer'ı ile geri yayılma yoluyla güncelleyin.

Algoritma 1: PWD-Net Polip Segmentasyonu
1: Giriş: Kolonoskopi görüntüsü I ∈ R^H×W×3
2: Çıkış: Segmentation mask M ∈ {0,1}^(H×W)
3:
4: işlev PCM(X) ▷ Pinwheel Konvolüsyon Modülü
5: Temel çekirdeği W (3 x 3), açılar Θ = {0°, 45°, ..., 315°} tanımlayın
6: her θ ∈ Θ için
7: W_θ ← BilinearRotate(W, θ) ▷ Çekirdeği döndür
8: Y_θ ← Conv2d(X, W_θ) ▷ Yöne özgü özellikler
9: son
10: Y_out ← ReLU(BN(Conv1 x 1(Concat({Y_θ})))) ▷ Aggregate
11: Y_{dönüşü out}
12: son fonksiyon
13:
14: Fonksiyon DAM(F) ▷ Çift Dikkat Mekanizması
15: A_c ← Sigmoid(MLP(AvgPool(F))) ▷ Kanal dikkati (r=16)
16: A_s ← Sigmoid(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Mekânsal dikkat
17: F' ← F ⊗ (α · A_c + β · A_s) ▷ Öğrenilebilir α ile birleş, β (init=0.5)
18: dönüş F'
19: son fonksiyon
20:
21: işlev PWD-Net(I)
22: Kodlayıcı: e₁, e₂, e₃, e₄, e₅ ← ResNet50_Stages(I) ▷ 5 aşamalı önceden eğitilmiş kodlayıcı
23: Darboğaz: b ← PCM(e₅) ▷ PCM darboğazında uygulanır
24: Bağlantıları atla: s_i ← DAM(e_i) for i = 1, 2, 3, 4 ▷ Filtre kodlayıcı özellikleri
25: Kod çözücü:
26: d₄ ← DoubleConv(Concat(Up(b), s₄))
27: d₃ ← DoubleConv(Concat(Up(d₄), s₃))
28: d₂ ← DoubleConv(Concat(Up(d₃), s₂))
29: d₁ ← DoubleConv (Concat(Up(d₂), s₁))
30: M ← Sigmoid(Conv1 x 1(d₁))
31: dönüş M
32: son fonksiyon
33:
34: Eğitim:
35: Her dönem için do
36: M̂ ← PWD-Net(I)
37: L ← 0.5 · M.Ö. (M̂,_{M gt}) + 0.5 · ZarKayıp(M̂, M_gt) ▷ λ = 0.5

38: Parametreleri geri yayma yoluyla güncelle (Adam optimizer)
39: son

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Deneysel Kurulum
Veri seti

Kvasir SEG veri seti, heterojen polip görünümlü kolonoskopi görüntülerde PWD Net'in segmentasyon davranışını değerlendirmek için kullanıldı. Veri seti 1.000 piksel açıklamalı polip görüntüleri içerir ve polip boyutu, şekli, dokusu, aydınlatması ve arka plan karmaşıklığında farklılıklar içerir; bu da küçük hedef tespiti, sınır lokalizasyonu ve görsel müdahaleye dayanıklılığı değerlendirmek için uygundur. Veri seti eğitim, doğrulama ve test alt kümelerine ayrıldı ve nihai test seti yalnızca performans değerlendirmesi için kullanıldı. Görüntülerin dağılımı Tablo 1'de özetlenmiştir.

Uygulama Detayları

Tekrarlanabilirlik için gereken uygulama ayarları Tablo 2'de özetlenmekte olup, tüm prosedürel detaylar Protokol'ün Veri Hazırlama adımları ve Bölüm 5.2'de sunulmaktadır. Sonuçların yorumlanması için, rapor edilen tüm deneyler Materyal Tablosu'nda listelenen aynı giriş çözünürlüğü, donanım ortamı ve değerlendirme koşullarını kullandı. Bildirilen değerler, tohum = 42 kullanılarak tek bir denemeden seçilen doğrulama Zar kontrol noktasına dayanır; bu nedenle sonuçlar, ortalama çapraz doğrulama sonuçları olarak değil, sabit deneysel bölünme altında performans olarak yorumlanmalıdır.

Değerlendirme Metrikleri

Segmentasyon performansı, Zar katsayısı, Birleşik Kesişimi, piksel düzeyinde doğruluk ve çıkarım hızı kullanılarak değerlendirildi. Zar katsayısı ve Birlik üzerindeki kesişim, tahmin edilen maske ile uzman tarafından notlanmış polip bölgesi arasındaki uzlaşmayı doğrudan yansıttığı birincil örtüşme tabanlı metrikler olarak kullanıldı. Kolonoskopi görüntüleri genellikle büyük arka plan bölgeleri içerdiği için piksel düzeyinde doğruluk ek bir ölçüm olarak bildirilmiştir. Saniyede kare olarak bildirilen çıkarım hızı, modelin pratik hesaplama verimliliğini koruyup korumadığını ve segmentasyon kalitesini artırıp artırmadığını değerlendirmek için dahil edilmiştir.

Mevcut Yöntemlerle Karşılaştırma
PWD-Net'in davranışını ve etkinliğini göstermek için, beş temsilci polip segmentasyon yöntemiyle karşılaştırma yapılmaktadır: CBSA (Kanal Destekli Mekansal Dikkat Ağı⁾³⁴, FSSA (Özellik Paylaşılan Mekansal Dikkat Ağı), MSF (Çok Ölçekli Birleşme Ağı), Pinwheel-Conv (Dikkat veya füzyon modülleri olmadan Pinwheel Konvolüsyon taban çizgisi) ve PolaLinear (Polarize Lineer dikkat ağı). Tüm karşılaştırma yöntemleri, resmi olarak yayımlanan kaynak kodları kullanılarak yeniden uygulanır ve aynı Kvasir-SEG eğitim seti (800 görüntü) üzerinde aynı ön işleme, giriş çözünürlüğü (352 x 352) ve değerlendirme ayarları altında eğitilerek adil bir karşılaştırma sağlanır. Tablo 3 , test seti üzerindeki nicel sonuçları sunmaktadır.

Tablo 3'te gösterildiği gibi, PWD-Net 0,865 zar katsayısı ve 0,765 IoU ile elde eder; bu da bir sonraki en iyi yönteme (CBSA) kıyasla zarlarda %1,8 ve IoU'da %4,8 iyileşmeyi temsil eder. Özellikle, PWD-Net bunu 9,1M parametreyle başarırken, CBSA için 18,4M parametre ile avantajlı verimlilik göstermektedir. PolaLinear ve Pinwheel-Conv daha yüksek çıkarım hızları sunarken (sırasıyla 79 ve 72 FPS), segmentasyon doğruluğu belirgin şekilde daha düşüktür; bu da PWD-Net'in değerlendirilen veri seti için doğruluk ile hesaplama maliyeti arasında makul bir denge sağladığını gösterir. Niteliksel segmentasyon davranışını göstermek için, görsel karşılaştırma için küçük polipler, büyük polipler, karmaşık arka planlar ve bulanık sınırları kapsayan beş temsilli test örneği seçilmiştir. Şekil 5, temel gerçekle birlikte dört seçilmiş karşılaştırıcı yöntemin (CBSA, FSSA, MSF ve PWD-Net) segmentasyon sonuçlarını sunmaktadır. Her tahmin sütunu ilgili yöntem adıyla etiketlenir. Pinwheel-Conv ve PolaLineer, görsel netlik için bu figürden çıkarılmıştır, çünkü nicel performansları önemli ölçüde daha düşüktür; Bu rakım, Tablo 3'te karşılaştırılan yöntemlerin seçilmiş bir alt kümesini temsil eder.

Şekil 5'te gösterildiği gibi, küçük polipli senaryolarda (birinci ve beşinci sıralar) FSSA ve MSF kaçırılmış tespitler gösterirken, PWD-Net hedefleri daha tam olarak yakalar. Büyük polipli senaryolarda (ikinci ve üçüncü sıralar), CBSA ve FSSA belirgin sınır düzensizlikleri oluştururken, PWD-Net daha düzgün sınırlar oluşturur. Belirsiz sınır senaryosunda (dördüncü satır), PWD-Net, çift dikkat mekanizması aracılığıyla arka plan gürültüsünü etkili şekilde bastırdığını gösterir.

Ablasyon Çalışması
PWD-Net'teki her bir temel bileşenin katkısını analiz etmek için sistematik bir ablasyon çalışması yapılır. ResNet-50'nin omurga kodlayıcısı olarak kullanılarak, temel model oluşturulduğunda, Pinwheel Konvolüsyon Modülü (Pinwheel), Çift Dikkat Mekanizması (Dual-Attn) ve Çok Ölçekli Özellik Birleşimi (MSF) modülü kademeli olarak dahil edilmiştir. Tablo 4 , nicel sonuçları özetlemektedir.

Tablo 4'ten alınan temel bulgular aşağıdaki şekilde özetlenebilir. İlk olarak, herhangi bir tek modülün eklenmesi, temel modelin performansını artırır. Çift Dikkat Mekanizması, uyarlanabilir gürültü bastırmanın etkinliğini destekleyen en belirgin kazanımları (Zar: +2,0%, IoU: +2,7%) sağlar. Pinwheel Konvolüsyon Modülü, zarlarda %1,6 bir iyileştirme sağlar; bu da düzensiz polip şekilleri için çok yönlü özellik çıkarımının faydasını gösterir. İkinci olarak, Pinwheel Konvolüsyonu ve Çift Dikkat Mekanizmasının birleştirilmesi performansı Zar = 0.858 ve IoU = 0.748'e yükseltir; bu da iki modül arasında tamamlayıcılık olduğunu gösterir. Son olarak, tam PWD-Net (üç modülün tamamını entegre ederek) en iyi gözlemlenen performansı (Zar = 0,865, IoU = 0,765) sağlar; bu da temel verilere kıyasla sırasıyla %3,3 ve %6,0 iyileştirmelerle bu önerilen her bileşenin bu veri setine katkısını gösterir.

Eğitim Süreci Analizi
PWD-Net'in eğitim dinamikleri ve yakınsaması özelliklerini göstermek için, temel performans metrikleri 50 eğitim dönemi boyunca kaydedilip görselleştirilir. Şekil 6 , kayıp fonksiyonu, zar katsayısı, IoU ve eğitim sırasında doğruluk değişimlerini göstermektedir.

Şekil 6(a)'da gösterildiği gibi, hem eğitim kaybı hem de doğrulama kaybı ilk 10 dönem içinde hızla azalır ve ardından kademeli olarak stabilize olur. Doğrulama kaybı, tüm süreç boyunca eğitim kaybından biraz daha yüksek kalır, ancak iki eğri tutarlı bir eğilim izler; küçük bir boşluk vardır ve bu da modelin ciddi aşırı uyum yaşamadığını gösterir. Şekil 6(b), Zar katsayısının erken eğitim aşamasında keskin bir şekilde arttığını, yaklaşık 30. dönemden sonra yakınsadığını ve 0.86'nın üzerinde stabilleştiğini göstermektedir. Şekil 6(c)'deki IoU eğrisi benzer bir büyüme eğilimi sergiliyor ve geç eğitim aşamasında yaklaşık 0.765'e ulaşıyor. Şekil 6(d) doğruluğun %94'ün üzerinde birleştiğini göstermektedir. Orta ve geç eğitim aşamalarındaki kararlı doğrulama eğilimleri, benimsenen veri artırma stratejisi ve kosinüs tavlama programının bu veri setinde aşırı uyumun azaltılmasına katkıda bulunduğunu göstermektedir.

Polip Boyutları Arasındaki Performans
PWD-Net'in farklı klinik senaryolarda uygulanabilirliğini daha iyi değerlendirmek için, test seti (100 görsel) polip alanının toplam görüntü alanına oranına göre üç kategoriye ayrılmıştır: küçük polipler (< 5%), orta polipler (%5–%30) ve büyük polipler (> %30). Bu sınıflandırma, polip ölçeğinin segmentasyon zorluğu üzerindeki etkisini yansıtır. Tablo 5 , her kategorinin nicel performansını sunmaktadır. Tablo 5'te gösterildiği gibi, PWD-Net orta polip kategorisinde en iyi performansı elde eder (Zar = 0.882, IoU = 0.790), bu da bu kategorinin daha büyük temsili ile tutarlıdır (100 test görsesinden 54'ü). Büyük poliplerde performans benzer seviyede kalıyor (Zar = 0.861, IoU = 0.760). Küçük poliplerde performans nispeten daha düşüktür (Zar = 0.812, IoU = 0.685), bunun başlıca nedeni küçük hedeflerin görüntünün küçük bir kısmını kaplaması ve sınır bilgisi daha seyrek olan arka plan gürültüsüne daha duyarlıdır.

Bu sonuçlar, Pinwheel Konvolüsyon Modülünün çok yönlü özellik yakalama yeteneği ve Çift Dikkat Mekanizması'nın mekansal lokalizasyon yeteneğinin, değerlendirilen test setinde farklı polip ölçekleri arasında makul segmentasyon kalitesini korumaya katkıda bulunduğunu göstermektedir.

figure-results-1
Şekil 1: PWD-Net Modelinin Çerçevesi. Pinwheel Konvolüsyonu ve Çift Dikkat (PWD-Net) temelli önerilen Polyp Segmentasyon Ağı'nın genel yapısal çerçevesi, kodlayıcı (ResNet-50), darboğaz (PCM), DAM ile güçlendirilmiş atlama bağlantıları, MSF kodlayıcı ve kolorektal polip segmentasyonu için çıktı üretimini göstermektedir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

figure-results-2
Şekil 2: PWD-Net'in Genel Mimari Akış Şeması. Beş aşamalı ResNet-50 kodlayıcısı, PCM darboğazı, DAM atlama bağlantıları, çok ölçekli özellik birleşme kodlayıcısı ve nihai tahmin üretimini gösteren tam PWD-Net mimarisinin ayrıntılı akış şeması. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

figure-results-3
Şekil 3: Pinwheel konvolüsyon modülünün şematik diyagramı. Pinwheel Konvolüsyon Modülünün yapısal ve operasyonel şeması, çok açılı döner konvolüsyon çekirdeklerini, bilinear enterpolasyon tabanlı dönüşü, kanal birleştirmesini ve 1 x 1 konvolüsyon toplayıcısını göstermektedir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

figure-results-4
Şekil 4: Çift dikkat mekanizmasının yapı diyagramı. DAM'ın mimari diyagramı, paralel kanal dikkat dalı (Küresel Ortalama Havuzlama → MLP ile r = 16 Sigmoid → indirgeme oranı) ve mekansal dikkat dalı (kanal bazında havuzlama → 7 x 7 konvolüsyon → Sigmoid) gösteriliyor, ardından öğrenilebilir katsayılara sahip ağırlıklı füzyon α ve β. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

figure-results-5
Şekil 5: Segmentasyon sonuçlarının niteliksel karşılaştırması. Her satır bir test örneğini temsil eder. Soldan sağa sütunlar: Giriş görseli, Ground Truth, CBSA, FSSA, MSF ve PWD-Net (Bizimki). Pinwheel-Conv ve PolaLinear görsel netlik için bu şekilde çıkarılmıştır; Tam nicel karşılaştırma için Tablo 3'e bakınız. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

figure-results-6
Şekil 6: PWD-Net'in 50 dönem boyunca eğitim eğrileri. (a) Eğitim ve doğrulama kaybı. (b) Zar katsayısı. (c) Union (IoU) üzerindeki kavşak. (d) Piksel seviyesinde doğruluk. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Eğitim Alt Kümesi	Örnek Sayısı	Oran
Tren Seti	800	80%
Doğrulama Seti	100	10%
Test Seti	100	10%
Toplam Set	1000	100%

Tablo 1: Veri Seti İstatistikleri. Kvasir-SEG veri seti için veri seti bölünmüş dağılımı (toplamda 1.000 resim), eğitim, doğrulama ve test alt kümelerine atanan görüntü sayısı ve oranını gösteriyor (rastgele tohum = 42).

Kategori	Parametre Öğesi	Parametre Ayarlaması
Derin Öğrenme Çerçevesi	Çerçeve	PyTorch
Donanım Ortamı	GPU	NVIDIA Tesla P100
Hızlandırma Yöntemi	GPU Hızlandırma	CUDA
Giriş Ayarları	Giriş Görüntü Boyutu	352 × 352
Görüntü Formatı	Görüntü Formatı	RGB Görüntü
Optimizer	Optimizer	Adam
İlk Öğrenme Oranı	İlk Kılıç Kaydı	1 × 10⁻⁴
Parti Büyüklüğü	Parti Büyüklüğü	16
Eğitim Dönemleri	Çağlar	50
Kayıp Fonksiyonu	Kayıp Fonksiyonu	Zar Kaybı + MÖ

Tablo 2: Deneysel Parametre Ayarları. PWD-Net eğitimi ve değerlendirmesi için deneysel parametre ayarları. Tam adım adım uygulama prosedürü için Protokol'ün Veri Hazırlama adımlarına ve Bölüm 5.2'ye bakınız.

Yöntem	Zar ↑	IoU ↑	Doğruluk ↑	Parametreler (M) ↓	FPS ↑
CBSA	0.8466	0.717	0.9325	18.4	36
FSSA	0.7109	0.551	0.9012	9.8	61
MSF	0.7337	0.585	0.9086	11.5	54
Pinwheel-Conv	0.8007	0.6742	0.9401	7.9	72
PolaLinear	0.7213	0.5707	0.9113	6.6	79
PWD-Net (Bizimki)	0.865	0.7651	0.9478	9.1	63

Tablo 3: Nicel Karşılaştırma Sonuçları. PWD-Net'in Kvasir-SEG test setindeki beş mevcut polip segmentasyon yöntemiyle nicel karşılaştırması (100 fotoğraf). Tüm yöntemler aynı veri bölünmeleri, ön işleme ve giriş çözünürlüğü (352 x 352) altında değerlendirilir. ↑ daha yüksek daha iyidir anlamına gelir; ↓ daha düşük daha iyidir anlamına gelir. * ile işaretlenmiş yöntemler, orijinal yayından alınan sonuçları gösterir, yeniden uygulanmış değil.

Yapılandırma	Pinwheel	Dual-Attn	MSF	Zar ↑	IoU ↑
Temel Durum	×	×	×	0.832	0.705
+ Pinwheel	√	×	×	0.848	0.725
+ Dual-Attn	×	√	×	0.852	0.732
+ MSF	×	×	√	0.844	0.72
+ Pinwheel + Çift Attn	√	√	×	0.858	0.748
Tam (PWD-Net)	√	√	√	0.865	0.765

Tablo 4: Ablasyon Çalışması Sonuçları. Kvasir-SEG test setinde ablasyon çalışması sonuçları, Pinwheel Konvolüsyon Modülü (Pinwheel), Çift Dikkat Mekanizması (Dual-Attn) ve Çok Ölçekli Özellik Füzyonu (MSF) ile temel ResNet-50 kodlayıcısına kademeli katkısını göstermektedir.

Polyip Tipi	Sayı	Zar ↑	IoU ↑
Küçük polipler (<% 5)	21	0.812	0.685
Orta polipler (%5–%30)	54	0.882	0.79
Büyük polipler (> %30)	25	0.861	0.76

Tablo 5: PWD-Net'in Farklı Polip Tipleri Üzerindeki Performansı. PWD-Net'in Kvasir-SEG test seti içindeki farklı polip boyutları kategorilerinde performansı (100 görüntü). Polep boyutu, polip alanının toplam görüntü alanına oranıyla tanımlanır.

Ek dosya: PWD-Net çerçevesinin uygulanmasını içeren sıkıştırılmış arşiv. Dosya, Pinwheel Konvolüsyon Modülü (PCM) ve Çift Dikkat Mekanizması (DAM) ile ağ mimarisini tanımlamak model.py train.py veri yükleme boru hattı, kayıp fonksiyonu ve eğitim prosedürünün uygulanması, test veri setlerinde model çıkarımı ve değerlendirmesi için test.py ve tüm gerekli Python kütüphanelerini ve ilgili sürümlerini requirements.txt listelemeyi içerir. Bu dosyayı indirmek için lütfen buraya tıklayın.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

PWD-Net protokolündeki birkaç tasarım seçeneği, güvenilir segmentasyon sonuçları elde etmek için kritik öneme sahiptir ve uygulama sırasında dikkatli bir dikkat gerektirir. Birincisi, kodlayıcı omurgasının seçimi ve başlatılması doğrudan yakınsama davranışını ve nihai performansı etkiler. Protokol, ImageNet üzerinde önceden eğitilmiş bir ResNet-50 kodlayıcı kullanır ve bu da sağlam düşük seviye ve orta seviye özellik başlatma sağlar. Bu özellikle, mevcut eğitim verilerinin sınırlı olduğu tıbbi görüntü segmentasyon görevlerinde önemlidir (mevcut çalışmada 800 görsel). Tüm kodlayıcı katmanlarını dondurmak yerine ince ayar yapmak, ağın önceden eğitilmiş özellikleri kolonoskopi görüntülerinin mukoza dokuları ve speküler yansımalar gibi özel özelliklerine uyarlamasına olanak tanır. İkinci olarak, her çekirdek modülün mimari içindeki yerleşimi kasıtlıdır. Pinwheel Konvolüsyon Modülü (PCM), mekânsal çözünürlüğün en düşük olduğu ancak anlamsal bilginin en zengin olduğu darboğazda konumlandırılmıştır; bu da aşırı hesaplama maliyeti olmadan küresel geometrik desenlerin verimli bir şekilde yakalanmasını sağlar. Çift Dikkat Mekanizması (DAM), çözücü yerine atlama bağlantılarına gömülüyor; böylece özellikler çözmeye iletilmeden önce arka plan gürültüsünün bastırılmasını sağlar ve kontamine özelliklerin füzyon aşamalarından geçmesini engeller. Ablasyon çalışması (Tablo 4) bu tasarımı destekler: DAM, en büyük bireysel performans kazancını sağlar (Zar: +%2,0), bu da özellik hattında erken gürültü bastırmanın önemini doğrular. Üçüncüsü, hibrit kayıp fonksiyonu (0.5 · MÖ + 0.5 · Dice) piksel düzeyinde sınıflandırma doğruluğunu bölge düzeyinde örtüşme optimizasyonuyla dengeler. Bu kombinasyon, özellikle ön plan-arka plan sınıf dengesizliğinin yaygın olduğu polip segmentasyonu için önemlidir. Eşit ağırlık (λ = 0.5) varsayılan olarak kabul edilir; Bu oranın ayarlanması, farklı sınıf dağılımlarına sahip veri setleri için gerekli olabilir (aşağıdaki Sorun Giderme bölümüne bakınız).

Modifikasyonlar ve Sorun Giderme
Protokolü farklı deneysel ayarlara uyarlamak için aşağıdaki değişiklikler ve sorun giderme yönergeleri sağlanmıştır. Protokol, farklı görüntü çözünürlüklerine veya polip boyut dağılımlarına sahip veri setlerine uygulandığında, giriş çözünürlüğü (352 x 352) ayarlanabilir. Daha büyük girdi boyutları, küçük polip algılamalarını artırabilir, ancak bellek tüketimini artırır ve çıkarım hızını azaltır. Eğer eğitim kaybı 50 dönem içinde yakınsamıyorsa, başlangıç öğrenme oranını azaltmayı (örneğin 5 x 10⁻^5'e) veya kosinüs tavlama döngü uzunluğunu artırmayı düşünün. Model, şiddetli snesküler yansımalar veya mukozal kıvrımların olduğu bölgelerde yüksek yanlış pozitif oranlar sergiliyorsa, zar kaybı bileşeninin ağırlığını artırmak (örneğin, BCE için λ = 0.4, zar için 0.6) piksel düzeyinde doğruluk pahasına sınır hassasiyetini artırabilir. Buna karşılık, model küçük polipleri alt segmentlere ayırırsa, BCE ağırlığının artırılması yardımcı olabilir. PCM'deki dönme açılarının sayısı (şu anda sekiz, 0°'den 315°'ye 45° artışlarla) yön kapsamı ile hesaplama maliyeti arasında bir dengeyi temsil eder. Dört açıya indirgemek (0°, 90°, 180°, 270°) hesaplamayı azaltır ancak eğik polip sınırlarına karşı hassasiyeti azaltabilir. DAM'ın kanal dikkat kolunda r = 16 indirgeme oranı, önceki sıkıştırma ve uyarılma^{ağları 32} tarafından belirlenen konvansiyonu takip eder; Daha küçük oranlar (örneğin, r = 8) model kapasitesini artırır ancak küçük veri setlerinde aşırı uyuma yol açabilir. Kvasir-SEG'den çok daha büyük veri setleri için, parti boyutunu ve eğitim dönemlerini buna göre artırmayı ve doğrulama metriklerini takip ederek uygun durma noktasını belirlemeyi düşünün.

Alternatif Yöntemlere Göre Önem
PWD-Net mimarisi, mevcut yaklaşımların belirli sınırlamalarını üç tamamlayıcı modül aracılığıyla ele alır. Standart kare konvolüsyon çekirdeklerine dayanan yöntemlerle karşılaştırıldığında, PCM çok açılı döner çekirdekler aracılığıyla yön hassasiyeti sağlar ve kolorektal poliplerin düzensiz ve çeşitli morfolojisine daha iyi uyum sağlar. Tek boyutlu dikkat mekanizmalarıyla karşılaştırıldığında (örneğin, sıkıştırma ve uyarılma ağlarında sadece kanal ile dikkat³³), DAM kanal ve mekansal önemi birlikte modeller ve karmaşık kolonoskopi ortamında daha kapsamlı gürültü bastırma sunar. Güçlü küresel modelleme sunan ancak daha yüksek hesaplama maliyetiyle sunulan TransUNet³⁴ ve^{Polyp-PVT 35} gibi Transformer tabanlı mimarilere kıyasla, PWD-Net nispeten kompakt model boyutu (9,1M parametre) ve pratik çıkarım hızı (63 FPS) ile rekabetçi performans sağlar; bu da Tablo 3'te belgelenmiştir.

Bu çalışmada sunulan karşılaştırmaların (Tablo 3) kontrollü koşullar altında, aynı veri bölünmeleri, ön işleme ve değerlendirme protokolleriyle yapıldığı belirtilmelidir. Gözlemlenen performans farklılıkları, bu çalışmada kullanılan Kvasir-SEG test setine (100 görüntü) özgüdür ve doğrudan diğer veri setlerine veya klinik ortamlara genelleştirilmez. Standartlaştırılmış çoklu veri seti kıyaslamaları altında ek yerleşik temelleri (örneğin, PraNet³⁶, ResUNet+⁺³⁷) içeren daha geniş bir karşılaştırma kanıtı daha da güçlendirecek ve gelecekteki çalışmalar için planlanmaktadır. Polip^{segmentasyonu 38} için çift kodlayıcı-kodlayıcı mimarileri üzerine yapılan son çalışmalar, paralel kodlama ve kod çözme yollarının potansiyelini göstermiştir. PWD-Net mimarisi, tek bir kodlayıcı-kodlayıcı boru hattı içinde döner geometrik modelleme ve çift dikkat filtreleme üzerine odaklanarak tamamlayıcı bir tasarım felsefesini temsil eder.

Bu çalışmanın birkaç önemli sınırlaması kabul edilmelidir. İlk olarak, deneysel kapsama açısından, mevcut çalışma sonuçları yalnızca Kvasir-SEG veri seti üzerine, 800 eğitim, 100 doğrulama ve 100 test görüntüsü gibi rastgele bölünmüş şekilde rapor ediyor. Test seti boyutu (100 görüntü) nispeten küçüktür ve tekrarlanan deneyler veya çapraz doğrulama olmadan yalnızca tek bir eğitim çalışması rapor edilir. Sonuç olarak, bildirilen performans metrikleri, belirli veri bölünmesine bağlı varyanslara tabi olabilir. Gelecekteki çalışmalar, daha sağlam performans tahminleri sağlamak için k-kat çapraz doğrulama veya rapor edilen standart sapmalarla birden fazla rastgele bölünmeyi içermelidir. İkinci olarak, PCM çok açılı çekirdek rotasyonu ve toplama yoluyla ek hesaplama yükü getirir. Genel model kompakt kalsa da (9,1M parametre), klinik ortamlarda kaynak kısıtlı cihazlarda dağıtım, bilgi damıtılması veya model budama gibi tekniklerle daha fazla optimizasyon gerektirebilir. Üçüncüsü, model yalnızca statik görüntüler üzerinde eğitilir ve değerlendirilirken, klinik kolonoskopi gerçek zamanlı video akışlarını içerir; poliplerin görünümü, boyutu ve bakış açısı ardışık kareler boyunca dinamik olarak değişir. 63 FPS çıkarım hızı gerçek zamanlı kare hızlarıyla uyumlu olsa da, bu metrik tek başına klinik doğrulama teşkil etmez. Klinik hazırlık iddiası yapılmadan önce endoskopik video verileri, okuyucu çalışmaları ve sonraki klinik sonuc nokta analizleri üzerinde prospektif doğrulama^gereklidir 39,40,41. Mevcut çalışma, klinik olarak doğrulanmış bir sistem yerine metodolojik bir katkı olarak anlaşılmalıdır.

Dördüncü olarak, yapay zeka destekli polip segmentasyonu için klinik çeviri yolu segmentasyon doğruluğunun çok ötesine geçer. Son incelemeler, gelişmiş görüntüleme ve analiz araçlarının, lezyon sınıflandırma, aşamalama ve tedavi planlaması gibi daha geniş endoluminal iş akışlarına entegre edilmesi gerektiğini vurgulamıştır. Mevcut protokol yalnızca ikili polip segmentasyonuna odaklanmakta olup, klinik kararları yönlendirmek için gerekli olan patolojik⁴² sınıflandırmasını (örneğin, adenotöz vs. hiperplastik polipler) veya malignite risk değerlendirmesini ele almıyor. Beşinci olarak, bu çalışmada kullanılan veri setleri esas olarak yetişkin kolonoskopi incelemelerinden türetilmiştir. Pediatrik polipler, inflamatuar bağırsak hastalığıyla ilişkili polipler ve diğer özel patolojik tipler hakkında veri bulunmamaktadır. Modelin bu popülasyonlara genellenebilirliği hâlâ test edilmemiştir. Altıncı olarak, her modülün işlevini göstermek için ablasyon deneyleri ve nitel görselleştirmeler sunulsa da, modelin yorumlanabilirliği sınırlıdır. Derin öğrenme modellerinin karar alma süreci tamamen şeffaf değildir, bu da klinisyenlerin güvenini ve benimsenmesini etkileyebilir. Gelecekteki çalışmalar, model tahminlerinin daha sezgisel açıklamalarını sağlamak için gradyan tabanlı görselleştirme tekniklerini^{içerebilir 43}.

Yukarıda belirtilen sınırlamalara rağmen, PWD-Net protokolü, daha fazla geliştirme için temel oluşturabilecek polip segmentasyonu için tekrarlanabilir bir çerçeve sağlar. Olası yönler arasında: modelin video tabanlı kolonoskopi analizine genişletilmesi ve zamansal modelleme teknikleri dahil edilmesi; uçtan uca segmentasyon ve patolojik tipleme için bir sınıflandırma dalı eklenmesi; değerlendirmeyi daha büyük ve çeşitli çok merkezli veri setlerine genişletmek; ve yapay zeka destekli görüntü analizinin giderek önemli bir olanak sağlayan teknoloji olarak kabul edildiği endoluminal robotik platformlarda entegrasyonu^{araştırıyor} ^44,45. Bu protokolle birlikte sağlanan ek kod paketi, yöntemin diğer araştırma grupları tarafından yeniden üretilmesini ve uyarlanmasını kolaylaştırmak amacıyla tasarlanmıştır.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yazarların açıklayacak hiçbir şeyi yok.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu çalışma, Çin Ulusal Anahtar Ar-Ge Programı (Program No. 2022YFC3500200 ve 2022YFC3500204) tarafından finanse edilmiştir.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Adam Optimizer	—	—	PyTorch'a Dahil Edilenler
Albumentations	Albumentations Ekibi	v1.0+	Veri artırma kütüphanesi
CUDA Araç Seti	NVIDIA	v11.3+	GPU hızlandırma
Kvasir-SEG veri seti	SimulaMet	—	https://datasets.simula.no/kvasir-seg/
Matplotlib	Matplotlib Topluluğu	v3.4+	Eğitim eğrilerinin görselleştirilmesi
NumPy	NumPy Topluluğu	v1.21+	Sayısal hesaplama
NVIDIA Tesla P100	NVIDIA	P100-PCIE-16GB	Eğitim ve çıkarım için GPU
OpenCV	OpenCV Topluluğu	v4.5+	Görüntü ön işleme
Python	Python Yazılım Vakfı	v3.8+	Programlama dili
PyTorch	Meta Platformlar	v1.12+	Derin öğrenme çerçevesi
ResNet-50 önceden eğitilmiş ağırlıklar	PyTorch Model Hayvanat Bahçesi	—	ImageNet-1K önceden eğitilmiş
Ubuntu	Kanonik	18.04+	İşletim sistemi

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Kolorektal Prekanser Lezyon Teşhisi için Pinwheel Konvolüsyonu ve Çift Dikkat Temelli Poyp Segmentasyon Ağı

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles