Bu protokol, kolorektal polipleri segment etmek için pinwheel konvolüsyon, çift dikkat ve çok ölçekli füzyon entegre eden U şeklinde derin öğrenme ağı uygular.
Method Article
Bu protokol, kolorektal polipleri segment etmek için pinwheel konvolüsyon, çift dikkat ve çok ölçekli füzyon entegre eden U şeklinde derin öğrenme ağı uygular.
Kolorektal poliplerin doğru segmentasyonu, kolorektal kanserin erken önlenmesi ve teşhisi için çok önemlidir. Ancak, poliplerin şekil, boyut ve doku açısından yüksek heterojenliği ile bağırsak ortamının karmaşıklığı (kıvrımlar, speküler yansımalar ve dışkı kalıntıları gibi) nedeniyle, mevcut yöntemler sınır lokalizasyonu ve küçük polip tespitinde hâlâ önemli zorluklarla karşı karşıyadır. Bu sorunları ele almak için, bu makale Pinwheel Konvolüsyonu ve Çift Dikkat (PWD-Net) temelli bir Polyp Segmentasyon Ağı önermektedir. Önerilen ağ, çok katmanlı yerel özellikleri çıkarmak için önceden eğitilmiş bir ResNet'in kodlayıcı olarak kullanıldığı U şeklinde kodlayıcı–kodlayıcı mimarisi benimser. Özellikle, dar boğaz katmanında poliplerin küresel geometrik yapısını ve çok yönlü bağlamsal bilgisini çok açılı dönmüş konvolüsyon çekirdekleri aracılığıyla yakalamak için bir Pinwheel Konvolüsyon Modülü (PCM) tanıtılır. Kanal dikkati ve mekânsal dikkati entegre eden Çift Dikkat Mekanizması (DAM), arka plan gürültüsünü adapte edici şekilde bastırmak ve polip bölgesi özelliklerini artırmak için tasarlanmıştır. Ayrıca, derin anlamsal bilgiyi sığ sınır detaylarıyla birleştiren Çok ölçekli Özellik Birleşimi (MSF) stratejisi uygulanarak segmentasyon sonuçlarının hem tamlığını hem de hassasiyetini garanti eder. Kvasir-SEG ve CVC-ClinicDB veri setleri üzerinde yapılan deneyler, PWD-Net'in ortalama zar katsayıları sırasıyla 0.865 ve 0.944 ile IoU puanları 0.765 ve 0.892 olarak elde ettiğini ve mevcut en son yöntemleri önemli ölçüde geride bıraktığını göstermektedir. Ablasyon çalışmaları her modülün etkinliğini doğrular, veri kümeleri çapraz değerlendirmeler ise modelin güçlü genelleştirme yeteneğini doğrular. Bu çalışma, klinik polip segmentasyonu için yüksek hassasiyetli ve sağlam bir çözüm sunar; kolorektal prekanser lezyonlarının erken teşhisi için önemli bir değer sunar ve bilgisayar destekli müdahaleyi destekler.
Kolorektal kanser, dünya genelinde en yaygın malign tümörlerden biridir ve sürekli yüksek insidans ve ölüm oranlarına sahiptir. Çalışmalar, kolorektal kanserlerin çoğunun adenomatoz poliplerden geliştiğini göstermiştir; bu süreç genellikle 10–15 yıl sürer ve erken tespit ve müdahale için değerli bir zaman aralığı sağlar. Adenom tespit oranında (ADR) %1 artış, kolorektal kanser riskini yaklaşık %3 azaltabilir ve hasta ölümünü önemli ölçüdedüşürür 1. Kolonoskopi, kolorektal kanser taramasında altın standart olarak kabul edilir ve muayene sırasında poliplerin doğrudan çıkarılmasını sağlar ve böylece kanser sisidanlığını ve ölümünü etkili bir şekilde azaltır.
Ancak, geleneksel kolonoskopi büyük ölçüde endoskopistlerin deneyim ve beceri seviyesine bağlıdır. Öznel yargı, görsel yorgunluk ve dikkat dağınıklığı gibi faktörler, doğrudan tarama etkinliğini etkileyen %20–%30 kaçırma oranına yolaçabilir 2. Bu nedenle, kolorektal poliplerin otomatik segmentasyonu için bilgisayar destekli tespit (CAD) sistemlerinin geliştirilmesi, ADR'yi iyileştirmek ve kaçırılan tanıları azaltmak için önemli bir öneme sahiptir. Son klinik anketler, yapay zekanın endoskopik lezyon değerlendirme iş akışlarına entegre edilmesine olan ilgiyi daha da vurgulamış ve sağlam ve tekrarlanabilir segmentasyon yöntemlerine olan ihtiyacıpekiştirmiştir 3.
Son yıllarda, derin öğrenme tıbbi görüntü analizinde, özellikle görüntü segmentasyon görevleri için özellik çıkarma ve temsil etme konusunda güçlü yetenek gösteren konvolüsyon sinir ağlarında (CNN) dikkat çekici ilerlemelerkaydetmiştir 4. Klasik bir tıbbi görüntü segmentasyon modeli olarak, U-Net, doğru piksel düzeyinde segmentasyon sağlamak için simetrik kodlayıcı–kodlayıcı mimarisi ve atlama bağlantıları kullanır ve bu alanda bir kıyaslama halinegelir 5. U-Net üzerine inşa edilerek, karmaşık tıbbi görüntü segmentasyon görevlerini çözmek için birçok geliştirilmiş mimari önerilmiştir. UNet++, iç içe ve yoğun atlama bağlantıları getirerek kodlayıcı ve kodlayıcı özellik haritaları arasındaki anlamsal boşluğuazaltır 6. ResUNet++ kalıntı blokları, sıkıştırma ve uyarılma modüllerini, genişletilmiş konvolüsyonları ve dikkat mekanizmalarını entegre ederek polipsegmentasyonunda güçlü performans sağlar 7. U2-Net, çok ölçekli özellik bilgisini yakalamak için iki seviyeli, iç içe U-şekilli bir yapıbenimser 8. Daha yakın zamanda, paralel kodlama ve çözme yollarını kullanarak segmentasyon doğruluğunu daha da artıran çift kodlayıcı-kodlayıcı tabanlı derin polip segmentasyon ağıönerilmiştir9.
Bu arada, dikkat mekanizmalarının tanıtılması özellik geliştirme ve gürültü bastırma için yeni çözümler sunuyor. Dikkat U-Net, hedef bölgelere odaklanmak için dikkat kapıları kullanırken, alakasız arka plan bilgilerinibastırır 10. Çift Dikkat Ağı (DANet), hem kanal hem de mekansalboyutlardan özellikleri uyarlayarak kritik özelliklerin algılanmasını iyileştirir. Üçlü Dikkat Ağları (TANet), çok ölçekli özelliklerin adaptif seçimi yoluyla segmentasyon performansını daha da artırır12.
Transformer mimarilerinin doğal dil işleme ve bilgisayar görme13'teki başarısıyla birlikte, araştırmacılar tıbbi görüntü segmentasyonunda uygulamalarını araştırmaya başladılar. TransUNet, uzun menzilli bağımlılıkları etkili şekilde modellemek için bir Transformer kodlayıcı olarak ilk kezkullanan 14 oldu. Swin-UNet, saf bir Transformer mimarisini benimser ve kaydırılmış penceremekanizması 15 aracılığıyla verimli küresel bilgi toplama sağlar. UTNet, CNN'lerin yerel özellik çıkarma yeteneğini Transformers16'nın küresel modelleme yeteneğiyle birleştiren hibrit bir mimari önermektedir.
Polip segmentasyonu alanında, Polyp-PVT piramit vizyonlu bir Transformer kullanarak çok ölçekli küresel anlamsalbilgiyi 17 yakalarken, çok ölçekli iç içe UNet, Transformers18'i entegre ederek bağlamsal anlayışı artırır. Son çalışmalar ayrıca, çapraz alan polip segmentasyonu19, Gompertz ile artırılmış segmentasyongeliştirme 20 ve sınır rehberliğini içeren dikkat temelli mimariler için negatif korelasyon öğrenmestratejilerini de incelemiştir. Bu yaklaşımlar segmentasyon performansını bir dereceye kadar iyileştirse de, polip segmentasyonu hâlâ çeşitli zorluklarla karşı karşıyadır. Birincisi, polipler morfoloji, boyut ve doku açısından yüksek heterojenlik gösterir; 5 mm'den küçük mikropoliplerden 30 mm'yi geçen büyük poliplere kadar değişir; şekilleri dairesel ve eliptikten çok düzensiz formlara kadar değişir. İkinci olarak, bağırsak ortamı karmaşık ve değişkendir; mukoza kıvrımları, speküler yansımalar, dışkı kalıntıları ve gıda kalıntıları ciddi arka plan girişimi oluşturur. Üçüncüsü, birçok polipin sınırları bulanıklaşmış, kısmen kıvrımlarla kapanmış olabilir veya bağırsak sıvılarının içinde kalmış olabilir, bu da kesin sınır lokalizasyonunu son derecezorlaştırır 22.
Mevcut yöntemler bu zorlukları ele almada hâlâ açık sınırlamalar sunmaktadır. Geleneksel CNN'ler yerel doku ve kenar özelliklerini çıkarmada etkilidir; Ancak, sabit kare konvolüsyon çekirdekler, özellikle çok düzensiz polipler için çeşitli geometrikşekilleri yakalamak için uygun değildir ve çok yönlü geometrik özellikleri etkili bir şekilde modelleyemez. Transformator tabanlı yöntemler küresel bağımlılıkları modelleyebilir ancak ince yerel detayları ve sınır bilgilerini yakalamada daha az etkilidir. Ayrıca, yüksek hesaplama karmaşıklıkları onları gerçek zamanlı klinik uygulamalar için daha az uygunkılar 24. Son zamanlarda kullanılan polip segmentasyon yaklaşımları, örneğin anahtarbölgeleri 25 iyileştirmek için ters dikkat modüllerini kullanan, sınır özellik çıkarımı26'yı geliştiren sınır yönlendirmeli kaskad dikkat ağları ve çapraz dikkat mekanizmalarıyla kodlayıcı ve çözücü özelliklerinibirleştiren CAFE-Net, küçük poliplerle uğraşırken hâlâ yeterli özellik temsili ve yanlış sınır lokalizasyonuile karşılaşmaktadır 28, bulanık sınırlar ve karmaşık arka planlar. Ayrıca, çoğu yöntem geometrik morfolojiyi ihmal eder ve çok yönlü bağlamsal bilgiyi tam olarak kullanamaz, bu da düzensiz şekilli poliplerin optimal olmayan segmentasyonuna yol açar.
Özetle, mevcut CNN tabanlı yöntemler, sabit kare konvolüsyon çekirdeklerine dayandıkları için çok yönlü geometrik özellikleri yakalama yeteneğinden yoksundur. Transformator tabanlı yaklaşımlar küresel modelleme sunar ancak yerel sınır hassasiyetinden ödün verir ve yüksek hesaplama maliyetleri getirir. Bu arada, mevcut dikkat artırılmış ve çok ölçekli füzyon stratejileri, polip segmentasyonu için özel olarak tasarlanmış birleşik bir çerçeveiçinde ortak olarak optimize edilmemiştir 29. Bu boşluklar, geometrik özellik modellemesi, uyarlanabilir gürültü bastırma ve çapraz ölçekli özellik entegrasyonunu aynı anda ele alan bir yöntemin geliştirilmesini motive etmektedir.
Bu sorunları ele almak için bu protokol, Pinwheel Konvolüsyonu ve Çift Dikkat (PWD-Net) tabanlı bir Polyp Segmentasyon Ağı sunar. Önerilen ağ, geometrik özellik modellemesi, çok boyutlu dikkat geliştirme ve çok ölçekli özellik birleşmesini entegre ederek karmaşık poliplerin hassas segmentasyonunu mümkün kılar. Bu çalışmanın başlıca katkıları şu şekilde özetlenmiştir: pinwheel konvolüsyon modülü (PCM), pinwheel'in yapısından esinlenerek, poliplerin çok yönlü geometrik özelliklerini çoklu açılarda (0°, 45°, 90°, 135°, 180°, 225°, 270° ve 315°) konvolüsyon işlemleriyle yakalanan yeni bir döner konvolüsyon çekirdeği tasarımı önerilmiştir. Bu modül, darboğaz aşamasında geleneksel konvolüsyon katmanının yerini alır; çeşitli kenar yönlerinin etkili algılanmasını sağlar ve düzensiz şekilli poliplerin temsilini önemli ölçüde iyileştirir. Çift dikkat mekanizması (DAM), kolonoskopi görüntülerindeki kıvrımlar, yansımalar ve dışkı kalıntıları gibi arka plan gürültüsünü ele alır. Kanal dikkati ve mekânsal dikkati entegre eden çift dikkat modülü tasarlanır. Atlama bağlantılarına gömülü olan bu modül, arka plan parazitini uyarlayıcı şekilde bastırır ve polip bölgelerinde "neyin" önemli olduğunu (kanal boyutu) ve hedefin "nerede" bulunduğunu (mekansal boyut) birlikte belirleyerek özellik yanıtlarını artırır; böylece sonraki füzyonda yalnızca rafine özelliklerin yer almasını sağlar. Çok ölçekli özellik birleşme stratejisi (MSF), çözücüye getirilen hiyerarşik mekanizma aracılığıyla hem derin anlamsal bilgiyi hem de sığ sınır detaylarını korur. DAM ile güçlendirilmiş kodlayıcı özelliklerini yukarı örneklenmiş kodlayıcı özellikleriyle aşamalı olarak entegre ederek, bu strateji downssampling nedeniyle oluşan mekansal detay kaybını etkili bir şekilde telafi eder; böylece küçük poliplerin doğru tespiti ve kesin sınır çizimleri sağlanır.
Bu çalışma yalnızca kamuya açık olan, anonimleştirilmiş kolonoskopi görüntü veri setlerini (Kvasir-SEG) kullanır. Yeni insan denek veri toplanmadı. Kurumsal etik onayı ve bilgilendirilmiş hasta onayı gerekmemişti; bu, kimliği açıklanmış kamu veri setlerinin retrospektif analizleri için kurumsal inceleme politikalarıyla da doğrulanmıştır.
1. Veri Hazırlığı
2. Genel Mimari
NOT: PWD-Net'in makro seviyeli kodlayıcı–kodlayıcı omurgası için Şekil 1'e ve özellik akışındaki çekirdek modüllerin entegrasyonu ve etkileşimi için Şekil 2'ye bakınız. Genel mimari, kolonoskopi görüntülerindeki poliplerin ölçek değişimlerini ve arka plan parazitini yönetmek için U şeklinde kodlayıcı-çözücü tasarımını takip eder.
3. Pinwheel Konvolüsyon Modülü (Şekil 3)

4. Çift Dikkat Mekanizması (Şekil 4)
NOT: Çift Dikkat Mekanizması (DAM), her atlama bağlantısına yerleştirilerek arka plan gürültüsünü bastırır ve hem kanal hem de mekansal boyutlardan polip bölgesi özelliklerini güçlendirir.


5. Çok Ölçekli Özellik Füzyonu
6. Kayıp Fonksiyonu ve Eğitim Konfigürasyonu



7. Sözde kod
Algoritma 1: PWD-Net Polip Segmentasyonu
1: Giriş: Kolonoskopi görüntüsü I ∈ RH×W×3
2: Çıkış: Segmentation mask M ∈ {0,1}(H×W)
3:
4: işlev PCM(X) ▷ Pinwheel Konvolüsyon Modülü
5: Temel çekirdeği W (3 x 3), açılar Θ = {0°, 45°, ..., 315°} tanımlayın
6: her θ ∈ Θ için
7: Wθ ← BilinearRotate(W, θ) ▷ Çekirdeği döndür
8: Yθ ← Conv2d(X, Wθ) ▷ Yöne özgü özellikler
9: son
10: Yout ← ReLU(BN(Conv1 x 1(Concat({Yθ})))) ▷ Aggregate
11: Ydönüşü out
12: son fonksiyon
13:
14: Fonksiyon DAM(F) ▷ Çift Dikkat Mekanizması
15: Ac ← Sigmoid(MLP(AvgPool(F))) ▷ Kanal dikkati (r=16)
16: As ← Sigmoid(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Mekânsal dikkat
17: F' ← F ⊗ (α · Ac + β · As) ▷ Öğrenilebilir α ile birleş, β (init=0.5)
18: dönüş F'
19: son fonksiyon
20:
21: işlev PWD-Net(I)
22: Kodlayıcı: e1, e2, e3, e4, e5 ← ResNet50_Stages(I) ▷ 5 aşamalı önceden eğitilmiş kodlayıcı
23: Darboğaz: b ← PCM(e5) ▷ PCM darboğazında uygulanır
24: Bağlantıları atla: si ← DAM(ei) for i = 1, 2, 3, 4 ▷ Filtre kodlayıcı özellikleri
25: Kod çözücü:
26: d4 ← DoubleConv(Concat(Up(b), s4))
27: d3 ← DoubleConv(Concat(Up(d4), s3))
28: d2 ← DoubleConv(Concat(Up(d3), s2))
29: d1 ← DoubleConv (Concat(Up(d2), s1))
30: M ← Sigmoid(Conv1 x 1(d1))
31: dönüş M
32: son fonksiyon
33:
34: Eğitim:
35: Her dönem için do
36: M̂ ← PWD-Net(I)
37: L ← 0.5 · M.Ö. (M̂,M gt) + 0.5 · ZarKayıp(M̂, Mgt) ▷ λ = 0.5
38: Parametreleri geri yayma yoluyla güncelle (Adam optimizer)
39: son
Deneysel Kurulum
Veri seti
Kvasir SEG veri seti, heterojen polip görünümlü kolonoskopi görüntülerde PWD Net'in segmentasyon davranışını değerlendirmek için kullanıldı. Veri seti 1.000 piksel açıklamalı polip görüntüleri içerir ve polip boyutu, şekli, dokusu, aydınlatması ve arka plan karmaşıklığında farklılıklar içerir; bu da küçük hedef tespiti, sınır lokalizasyonu ve görsel müdahaleye dayanıklılığı değerlendirmek için uygundur. Veri seti eğitim, doğrulama ve test alt kümelerine ayrıldı ve nihai test seti yalnızca performans değerlendirmesi için kullanıldı. Görüntülerin dağılımı Tablo 1'de özetlenmiştir.
Uygulama Detayları
Tekrarlanabilirlik için gereken uygulama ayarları Tablo 2'de özetlenmekte olup, tüm prosedürel detaylar Protokol'ün Veri Hazırlama adımları ve Bölüm 5.2'de sunulmaktadır. Sonuçların yorumlanması için, rapor edilen tüm deneyler Materyal Tablosu'nda listelenen aynı giriş çözünürlüğü, donanım ortamı ve değerlendirme koşullarını kullandı. Bildirilen değerler, tohum = 42 kullanılarak tek bir denemeden seçilen doğrulama Zar kontrol noktasına dayanır; bu nedenle sonuçlar, ortalama çapraz doğrulama sonuçları olarak değil, sabit deneysel bölünme altında performans olarak yorumlanmalıdır.
Değerlendirme Metrikleri
Segmentasyon performansı, Zar katsayısı, Birleşik Kesişimi, piksel düzeyinde doğruluk ve çıkarım hızı kullanılarak değerlendirildi. Zar katsayısı ve Birlik üzerindeki kesişim, tahmin edilen maske ile uzman tarafından notlanmış polip bölgesi arasındaki uzlaşmayı doğrudan yansıttığı birincil örtüşme tabanlı metrikler olarak kullanıldı. Kolonoskopi görüntüleri genellikle büyük arka plan bölgeleri içerdiği için piksel düzeyinde doğruluk ek bir ölçüm olarak bildirilmiştir. Saniyede kare olarak bildirilen çıkarım hızı, modelin pratik hesaplama verimliliğini koruyup korumadığını ve segmentasyon kalitesini artırıp artırmadığını değerlendirmek için dahil edilmiştir.
Mevcut Yöntemlerle Karşılaştırma
PWD-Net'in davranışını ve etkinliğini göstermek için, beş temsilci polip segmentasyon yöntemiyle karşılaştırma yapılmaktadır: CBSA (Kanal Destekli Mekansal Dikkat Ağı)34, FSSA (Özellik Paylaşılan Mekansal Dikkat Ağı), MSF (Çok Ölçekli Birleşme Ağı), Pinwheel-Conv (Dikkat veya füzyon modülleri olmadan Pinwheel Konvolüsyon taban çizgisi) ve PolaLinear (Polarize Lineer dikkat ağı). Tüm karşılaştırma yöntemleri, resmi olarak yayımlanan kaynak kodları kullanılarak yeniden uygulanır ve aynı Kvasir-SEG eğitim seti (800 görüntü) üzerinde aynı ön işleme, giriş çözünürlüğü (352 x 352) ve değerlendirme ayarları altında eğitilerek adil bir karşılaştırma sağlanır. Tablo 3 , test seti üzerindeki nicel sonuçları sunmaktadır.
Tablo 3'te gösterildiği gibi, PWD-Net 0,865 zar katsayısı ve 0,765 IoU ile elde eder; bu da bir sonraki en iyi yönteme (CBSA) kıyasla zarlarda %1,8 ve IoU'da %4,8 iyileşmeyi temsil eder. Özellikle, PWD-Net bunu 9,1M parametreyle başarırken, CBSA için 18,4M parametre ile avantajlı verimlilik göstermektedir. PolaLinear ve Pinwheel-Conv daha yüksek çıkarım hızları sunarken (sırasıyla 79 ve 72 FPS), segmentasyon doğruluğu belirgin şekilde daha düşüktür; bu da PWD-Net'in değerlendirilen veri seti için doğruluk ile hesaplama maliyeti arasında makul bir denge sağladığını gösterir. Niteliksel segmentasyon davranışını göstermek için, görsel karşılaştırma için küçük polipler, büyük polipler, karmaşık arka planlar ve bulanık sınırları kapsayan beş temsilli test örneği seçilmiştir. Şekil 5, temel gerçekle birlikte dört seçilmiş karşılaştırıcı yöntemin (CBSA, FSSA, MSF ve PWD-Net) segmentasyon sonuçlarını sunmaktadır. Her tahmin sütunu ilgili yöntem adıyla etiketlenir. Pinwheel-Conv ve PolaLineer, görsel netlik için bu figürden çıkarılmıştır, çünkü nicel performansları önemli ölçüde daha düşüktür; Bu rakım, Tablo 3'te karşılaştırılan yöntemlerin seçilmiş bir alt kümesini temsil eder.
Şekil 5'te gösterildiği gibi, küçük polipli senaryolarda (birinci ve beşinci sıralar) FSSA ve MSF kaçırılmış tespitler gösterirken, PWD-Net hedefleri daha tam olarak yakalar. Büyük polipli senaryolarda (ikinci ve üçüncü sıralar), CBSA ve FSSA belirgin sınır düzensizlikleri oluştururken, PWD-Net daha düzgün sınırlar oluşturur. Belirsiz sınır senaryosunda (dördüncü satır), PWD-Net, çift dikkat mekanizması aracılığıyla arka plan gürültüsünü etkili şekilde bastırdığını gösterir.
Ablasyon Çalışması
PWD-Net'teki her bir temel bileşenin katkısını analiz etmek için sistematik bir ablasyon çalışması yapılır. ResNet-50'nin omurga kodlayıcısı olarak kullanılarak, temel model oluşturulduğunda, Pinwheel Konvolüsyon Modülü (Pinwheel), Çift Dikkat Mekanizması (Dual-Attn) ve Çok Ölçekli Özellik Birleşimi (MSF) modülü kademeli olarak dahil edilmiştir. Tablo 4 , nicel sonuçları özetlemektedir.
Tablo 4'ten alınan temel bulgular aşağıdaki şekilde özetlenebilir. İlk olarak, herhangi bir tek modülün eklenmesi, temel modelin performansını artırır. Çift Dikkat Mekanizması, uyarlanabilir gürültü bastırmanın etkinliğini destekleyen en belirgin kazanımları (Zar: +2,0%, IoU: +2,7%) sağlar. Pinwheel Konvolüsyon Modülü, zarlarda %1,6 bir iyileştirme sağlar; bu da düzensiz polip şekilleri için çok yönlü özellik çıkarımının faydasını gösterir. İkinci olarak, Pinwheel Konvolüsyonu ve Çift Dikkat Mekanizmasının birleştirilmesi performansı Zar = 0.858 ve IoU = 0.748'e yükseltir; bu da iki modül arasında tamamlayıcılık olduğunu gösterir. Son olarak, tam PWD-Net (üç modülün tamamını entegre ederek) en iyi gözlemlenen performansı (Zar = 0,865, IoU = 0,765) sağlar; bu da temel verilere kıyasla sırasıyla %3,3 ve %6,0 iyileştirmelerle bu önerilen her bileşenin bu veri setine katkısını gösterir.
Eğitim Süreci Analizi
PWD-Net'in eğitim dinamikleri ve yakınsaması özelliklerini göstermek için, temel performans metrikleri 50 eğitim dönemi boyunca kaydedilip görselleştirilir. Şekil 6 , kayıp fonksiyonu, zar katsayısı, IoU ve eğitim sırasında doğruluk değişimlerini göstermektedir.
Şekil 6(a)'da gösterildiği gibi, hem eğitim kaybı hem de doğrulama kaybı ilk 10 dönem içinde hızla azalır ve ardından kademeli olarak stabilize olur. Doğrulama kaybı, tüm süreç boyunca eğitim kaybından biraz daha yüksek kalır, ancak iki eğri tutarlı bir eğilim izler; küçük bir boşluk vardır ve bu da modelin ciddi aşırı uyum yaşamadığını gösterir. Şekil 6(b), Zar katsayısının erken eğitim aşamasında keskin bir şekilde arttığını, yaklaşık 30. dönemden sonra yakınsadığını ve 0.86'nın üzerinde stabilleştiğini göstermektedir. Şekil 6(c)'deki IoU eğrisi benzer bir büyüme eğilimi sergiliyor ve geç eğitim aşamasında yaklaşık 0.765'e ulaşıyor. Şekil 6(d) doğruluğun %94'ün üzerinde birleştiğini göstermektedir. Orta ve geç eğitim aşamalarındaki kararlı doğrulama eğilimleri, benimsenen veri artırma stratejisi ve kosinüs tavlama programının bu veri setinde aşırı uyumun azaltılmasına katkıda bulunduğunu göstermektedir.
Polip Boyutları Arasındaki Performans
PWD-Net'in farklı klinik senaryolarda uygulanabilirliğini daha iyi değerlendirmek için, test seti (100 görsel) polip alanının toplam görüntü alanına oranına göre üç kategoriye ayrılmıştır: küçük polipler (< 5%), orta polipler (%5–%30) ve büyük polipler (> %30). Bu sınıflandırma, polip ölçeğinin segmentasyon zorluğu üzerindeki etkisini yansıtır. Tablo 5 , her kategorinin nicel performansını sunmaktadır. Tablo 5'te gösterildiği gibi, PWD-Net orta polip kategorisinde en iyi performansı elde eder (Zar = 0.882, IoU = 0.790), bu da bu kategorinin daha büyük temsili ile tutarlıdır (100 test görsesinden 54'ü). Büyük poliplerde performans benzer seviyede kalıyor (Zar = 0.861, IoU = 0.760). Küçük poliplerde performans nispeten daha düşüktür (Zar = 0.812, IoU = 0.685), bunun başlıca nedeni küçük hedeflerin görüntünün küçük bir kısmını kaplaması ve sınır bilgisi daha seyrek olan arka plan gürültüsüne daha duyarlıdır.
Bu sonuçlar, Pinwheel Konvolüsyon Modülünün çok yönlü özellik yakalama yeteneği ve Çift Dikkat Mekanizması'nın mekansal lokalizasyon yeteneğinin, değerlendirilen test setinde farklı polip ölçekleri arasında makul segmentasyon kalitesini korumaya katkıda bulunduğunu göstermektedir.

Şekil 1: PWD-Net Modelinin Çerçevesi. Pinwheel Konvolüsyonu ve Çift Dikkat (PWD-Net) temelli önerilen Polyp Segmentasyon Ağı'nın genel yapısal çerçevesi, kodlayıcı (ResNet-50), darboğaz (PCM), DAM ile güçlendirilmiş atlama bağlantıları, MSF kodlayıcı ve kolorektal polip segmentasyonu için çıktı üretimini göstermektedir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Şekil 2: PWD-Net'in Genel Mimari Akış Şeması. Beş aşamalı ResNet-50 kodlayıcısı, PCM darboğazı, DAM atlama bağlantıları, çok ölçekli özellik birleşme kodlayıcısı ve nihai tahmin üretimini gösteren tam PWD-Net mimarisinin ayrıntılı akış şeması. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Şekil 3: Pinwheel konvolüsyon modülünün şematik diyagramı. Pinwheel Konvolüsyon Modülünün yapısal ve operasyonel şeması, çok açılı döner konvolüsyon çekirdeklerini, bilinear enterpolasyon tabanlı dönüşü, kanal birleştirmesini ve 1 x 1 konvolüsyon toplayıcısını göstermektedir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Şekil 4: Çift dikkat mekanizmasının yapı diyagramı. DAM'ın mimari diyagramı, paralel kanal dikkat dalı (Küresel Ortalama Havuzlama → MLP ile r = 16 Sigmoid → indirgeme oranı) ve mekansal dikkat dalı (kanal bazında havuzlama → 7 x 7 konvolüsyon → Sigmoid) gösteriliyor, ardından öğrenilebilir katsayılara sahip ağırlıklı füzyon α ve β. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Şekil 5: Segmentasyon sonuçlarının niteliksel karşılaştırması. Her satır bir test örneğini temsil eder. Soldan sağa sütunlar: Giriş görseli, Ground Truth, CBSA, FSSA, MSF ve PWD-Net (Bizimki). Pinwheel-Conv ve PolaLinear görsel netlik için bu şekilde çıkarılmıştır; Tam nicel karşılaştırma için Tablo 3'e bakınız. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Şekil 6: PWD-Net'in 50 dönem boyunca eğitim eğrileri. (a) Eğitim ve doğrulama kaybı. (b) Zar katsayısı. (c) Union (IoU) üzerindeki kavşak. (d) Piksel seviyesinde doğruluk. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
| Eğitim Alt Kümesi | Örnek Sayısı | Oran |
| Tren Seti | 800 | 80% |
| Doğrulama Seti | 100 | 10% |
| Test Seti | 100 | 10% |
| Toplam Set | 1000 | 100% |
Tablo 1: Veri Seti İstatistikleri. Kvasir-SEG veri seti için veri seti bölünmüş dağılımı (toplamda 1.000 resim), eğitim, doğrulama ve test alt kümelerine atanan görüntü sayısı ve oranını gösteriyor (rastgele tohum = 42).
| Kategori | Parametre Öğesi | Parametre Ayarlaması |
| Derin Öğrenme Çerçevesi | Çerçeve | PyTorch |
| Donanım Ortamı | GPU | NVIDIA Tesla P100 |
| Hızlandırma Yöntemi | GPU Hızlandırma | CUDA |
| Giriş Ayarları | Giriş Görüntü Boyutu | 352 × 352 |
| Görüntü Formatı | Görüntü Formatı | RGB Görüntü |
| Optimizer | Optimizer | Adam |
| İlk Öğrenme Oranı | İlk Kılıç Kaydı | 1 × 10⁻4 |
| Parti Büyüklüğü | Parti Büyüklüğü | 16 |
| Eğitim Dönemleri | Çağlar | 50 |
| Kayıp Fonksiyonu | Kayıp Fonksiyonu | Zar Kaybı + MÖ |
Tablo 2: Deneysel Parametre Ayarları. PWD-Net eğitimi ve değerlendirmesi için deneysel parametre ayarları. Tam adım adım uygulama prosedürü için Protokol'ün Veri Hazırlama adımlarına ve Bölüm 5.2'ye bakınız.
| Yöntem | Zar ↑ | IoU ↑ | Doğruluk ↑ | Parametreler (M) ↓ | FPS ↑ |
| CBSA | 0.8466 | 0.717 | 0.9325 | 18.4 | 36 |
| FSSA | 0.7109 | 0.551 | 0.9012 | 9.8 | 61 |
| MSF | 0.7337 | 0.585 | 0.9086 | 11.5 | 54 |
| Pinwheel-Conv | 0.8007 | 0.6742 | 0.9401 | 7.9 | 72 |
| PolaLinear | 0.7213 | 0.5707 | 0.9113 | 6.6 | 79 |
| PWD-Net (Bizimki) | 0.865 | 0.7651 | 0.9478 | 9.1 | 63 |
Tablo 3: Nicel Karşılaştırma Sonuçları. PWD-Net'in Kvasir-SEG test setindeki beş mevcut polip segmentasyon yöntemiyle nicel karşılaştırması (100 fotoğraf). Tüm yöntemler aynı veri bölünmeleri, ön işleme ve giriş çözünürlüğü (352 x 352) altında değerlendirilir. ↑ daha yüksek daha iyidir anlamına gelir; ↓ daha düşük daha iyidir anlamına gelir. * ile işaretlenmiş yöntemler, orijinal yayından alınan sonuçları gösterir, yeniden uygulanmış değil.
| Yapılandırma | Pinwheel | Dual-Attn | MSF | Zar ↑ | IoU ↑ |
| Temel Durum | × | × | × | 0.832 | 0.705 |
| + Pinwheel | √ | × | × | 0.848 | 0.725 |
| + Dual-Attn | × | √ | × | 0.852 | 0.732 |
| + MSF | × | × | √ | 0.844 | 0.72 |
| + Pinwheel + Çift Attn | √ | √ | × | 0.858 | 0.748 |
| Tam (PWD-Net) | √ | √ | √ | 0.865 | 0.765 |
Tablo 4: Ablasyon Çalışması Sonuçları. Kvasir-SEG test setinde ablasyon çalışması sonuçları, Pinwheel Konvolüsyon Modülü (Pinwheel), Çift Dikkat Mekanizması (Dual-Attn) ve Çok Ölçekli Özellik Füzyonu (MSF) ile temel ResNet-50 kodlayıcısına kademeli katkısını göstermektedir.
| Polyip Tipi | Sayı | Zar ↑ | IoU ↑ |
| Küçük polipler (<% 5) | 21 | 0.812 | 0.685 |
| Orta polipler (%5–%30) | 54 | 0.882 | 0.79 |
| Büyük polipler (> %30) | 25 | 0.861 | 0.76 |
Tablo 5: PWD-Net'in Farklı Polip Tipleri Üzerindeki Performansı. PWD-Net'in Kvasir-SEG test seti içindeki farklı polip boyutları kategorilerinde performansı (100 görüntü). Polep boyutu, polip alanının toplam görüntü alanına oranıyla tanımlanır.
Ek dosya: PWD-Net çerçevesinin uygulanmasını içeren sıkıştırılmış arşiv. Dosya, Pinwheel Konvolüsyon Modülü (PCM) ve Çift Dikkat Mekanizması (DAM) ile ağ mimarisini tanımlamak model.py train.py veri yükleme boru hattı, kayıp fonksiyonu ve eğitim prosedürünün uygulanması, test veri setlerinde model çıkarımı ve değerlendirmesi için test.py ve tüm gerekli Python kütüphanelerini ve ilgili sürümlerini requirements.txt listelemeyi içerir. Bu dosyayı indirmek için lütfen buraya tıklayın.
PWD-Net protokolündeki birkaç tasarım seçeneği, güvenilir segmentasyon sonuçları elde etmek için kritik öneme sahiptir ve uygulama sırasında dikkatli bir dikkat gerektirir. Birincisi, kodlayıcı omurgasının seçimi ve başlatılması doğrudan yakınsama davranışını ve nihai performansı etkiler. Protokol, ImageNet üzerinde önceden eğitilmiş bir ResNet-50 kodlayıcı kullanır ve bu da sağlam düşük seviye ve orta seviye özellik başlatma sağlar. Bu özellikle, mevcut eğitim verilerinin sınırlı olduğu tıbbi görüntü segmentasyon görevlerinde önemlidir (mevcut çalışmada 800 görsel). Tüm kodlayıcı katmanlarını dondurmak yerine ince ayar yapmak, ağın önceden eğitilmiş özellikleri kolonoskopi görüntülerinin mukoza dokuları ve speküler yansımalar gibi özel özelliklerine uyarlamasına olanak tanır. İkinci olarak, her çekirdek modülün mimari içindeki yerleşimi kasıtlıdır. Pinwheel Konvolüsyon Modülü (PCM), mekânsal çözünürlüğün en düşük olduğu ancak anlamsal bilginin en zengin olduğu darboğazda konumlandırılmıştır; bu da aşırı hesaplama maliyeti olmadan küresel geometrik desenlerin verimli bir şekilde yakalanmasını sağlar. Çift Dikkat Mekanizması (DAM), çözücü yerine atlama bağlantılarına gömülüyor; böylece özellikler çözmeye iletilmeden önce arka plan gürültüsünün bastırılmasını sağlar ve kontamine özelliklerin füzyon aşamalarından geçmesini engeller. Ablasyon çalışması (Tablo 4) bu tasarımı destekler: DAM, en büyük bireysel performans kazancını sağlar (Zar: +%2,0), bu da özellik hattında erken gürültü bastırmanın önemini doğrular. Üçüncüsü, hibrit kayıp fonksiyonu (0.5 · MÖ + 0.5 · Dice) piksel düzeyinde sınıflandırma doğruluğunu bölge düzeyinde örtüşme optimizasyonuyla dengeler. Bu kombinasyon, özellikle ön plan-arka plan sınıf dengesizliğinin yaygın olduğu polip segmentasyonu için önemlidir. Eşit ağırlık (λ = 0.5) varsayılan olarak kabul edilir; Bu oranın ayarlanması, farklı sınıf dağılımlarına sahip veri setleri için gerekli olabilir (aşağıdaki Sorun Giderme bölümüne bakınız).
Modifikasyonlar ve Sorun Giderme
Protokolü farklı deneysel ayarlara uyarlamak için aşağıdaki değişiklikler ve sorun giderme yönergeleri sağlanmıştır. Protokol, farklı görüntü çözünürlüklerine veya polip boyut dağılımlarına sahip veri setlerine uygulandığında, giriş çözünürlüğü (352 x 352) ayarlanabilir. Daha büyük girdi boyutları, küçük polip algılamalarını artırabilir, ancak bellek tüketimini artırır ve çıkarım hızını azaltır. Eğer eğitim kaybı 50 dönem içinde yakınsamıyorsa, başlangıç öğrenme oranını azaltmayı (örneğin 5 x 10⁻5'e) veya kosinüs tavlama döngü uzunluğunu artırmayı düşünün. Model, şiddetli snesküler yansımalar veya mukozal kıvrımların olduğu bölgelerde yüksek yanlış pozitif oranlar sergiliyorsa, zar kaybı bileşeninin ağırlığını artırmak (örneğin, BCE için λ = 0.4, zar için 0.6) piksel düzeyinde doğruluk pahasına sınır hassasiyetini artırabilir. Buna karşılık, model küçük polipleri alt segmentlere ayırırsa, BCE ağırlığının artırılması yardımcı olabilir. PCM'deki dönme açılarının sayısı (şu anda sekiz, 0°'den 315°'ye 45° artışlarla) yön kapsamı ile hesaplama maliyeti arasında bir dengeyi temsil eder. Dört açıya indirgemek (0°, 90°, 180°, 270°) hesaplamayı azaltır ancak eğik polip sınırlarına karşı hassasiyeti azaltabilir. DAM'ın kanal dikkat kolunda r = 16 indirgeme oranı, önceki sıkıştırma ve uyarılmaağları 32 tarafından belirlenen konvansiyonu takip eder; Daha küçük oranlar (örneğin, r = 8) model kapasitesini artırır ancak küçük veri setlerinde aşırı uyuma yol açabilir. Kvasir-SEG'den çok daha büyük veri setleri için, parti boyutunu ve eğitim dönemlerini buna göre artırmayı ve doğrulama metriklerini takip ederek uygun durma noktasını belirlemeyi düşünün.
Alternatif Yöntemlere Göre Önem
PWD-Net mimarisi, mevcut yaklaşımların belirli sınırlamalarını üç tamamlayıcı modül aracılığıyla ele alır. Standart kare konvolüsyon çekirdeklerine dayanan yöntemlerle karşılaştırıldığında, PCM çok açılı döner çekirdekler aracılığıyla yön hassasiyeti sağlar ve kolorektal poliplerin düzensiz ve çeşitli morfolojisine daha iyi uyum sağlar. Tek boyutlu dikkat mekanizmalarıyla karşılaştırıldığında (örneğin, sıkıştırma ve uyarılma ağlarında sadece kanal ile dikkat33), DAM kanal ve mekansal önemi birlikte modeller ve karmaşık kolonoskopi ortamında daha kapsamlı gürültü bastırma sunar. Güçlü küresel modelleme sunan ancak daha yüksek hesaplama maliyetiyle sunulan TransUNet34 vePolyp-PVT 35 gibi Transformer tabanlı mimarilere kıyasla, PWD-Net nispeten kompakt model boyutu (9,1M parametre) ve pratik çıkarım hızı (63 FPS) ile rekabetçi performans sağlar; bu da Tablo 3'te belgelenmiştir.
Bu çalışmada sunulan karşılaştırmaların (Tablo 3) kontrollü koşullar altında, aynı veri bölünmeleri, ön işleme ve değerlendirme protokolleriyle yapıldığı belirtilmelidir. Gözlemlenen performans farklılıkları, bu çalışmada kullanılan Kvasir-SEG test setine (100 görüntü) özgüdür ve doğrudan diğer veri setlerine veya klinik ortamlara genelleştirilmez. Standartlaştırılmış çoklu veri seti kıyaslamaları altında ek yerleşik temelleri (örneğin, PraNet36, ResUNet++37) içeren daha geniş bir karşılaştırma kanıtı daha da güçlendirecek ve gelecekteki çalışmalar için planlanmaktadır. Polipsegmentasyonu 38 için çift kodlayıcı-kodlayıcı mimarileri üzerine yapılan son çalışmalar, paralel kodlama ve kod çözme yollarının potansiyelini göstermiştir. PWD-Net mimarisi, tek bir kodlayıcı-kodlayıcı boru hattı içinde döner geometrik modelleme ve çift dikkat filtreleme üzerine odaklanarak tamamlayıcı bir tasarım felsefesini temsil eder.
Bu çalışmanın birkaç önemli sınırlaması kabul edilmelidir. İlk olarak, deneysel kapsama açısından, mevcut çalışma sonuçları yalnızca Kvasir-SEG veri seti üzerine, 800 eğitim, 100 doğrulama ve 100 test görüntüsü gibi rastgele bölünmüş şekilde rapor ediyor. Test seti boyutu (100 görüntü) nispeten küçüktür ve tekrarlanan deneyler veya çapraz doğrulama olmadan yalnızca tek bir eğitim çalışması rapor edilir. Sonuç olarak, bildirilen performans metrikleri, belirli veri bölünmesine bağlı varyanslara tabi olabilir. Gelecekteki çalışmalar, daha sağlam performans tahminleri sağlamak için k-kat çapraz doğrulama veya rapor edilen standart sapmalarla birden fazla rastgele bölünmeyi içermelidir. İkinci olarak, PCM çok açılı çekirdek rotasyonu ve toplama yoluyla ek hesaplama yükü getirir. Genel model kompakt kalsa da (9,1M parametre), klinik ortamlarda kaynak kısıtlı cihazlarda dağıtım, bilgi damıtılması veya model budama gibi tekniklerle daha fazla optimizasyon gerektirebilir. Üçüncüsü, model yalnızca statik görüntüler üzerinde eğitilir ve değerlendirilirken, klinik kolonoskopi gerçek zamanlı video akışlarını içerir; poliplerin görünümü, boyutu ve bakış açısı ardışık kareler boyunca dinamik olarak değişir. 63 FPS çıkarım hızı gerçek zamanlı kare hızlarıyla uyumlu olsa da, bu metrik tek başına klinik doğrulama teşkil etmez. Klinik hazırlık iddiası yapılmadan önce endoskopik video verileri, okuyucu çalışmaları ve sonraki klinik sonuc nokta analizleri üzerinde prospektif doğrulamagereklidir 39,40,41. Mevcut çalışma, klinik olarak doğrulanmış bir sistem yerine metodolojik bir katkı olarak anlaşılmalıdır.
Dördüncü olarak, yapay zeka destekli polip segmentasyonu için klinik çeviri yolu segmentasyon doğruluğunun çok ötesine geçer. Son incelemeler, gelişmiş görüntüleme ve analiz araçlarının, lezyon sınıflandırma, aşamalama ve tedavi planlaması gibi daha geniş endoluminal iş akışlarına entegre edilmesi gerektiğini vurgulamıştır. Mevcut protokol yalnızca ikili polip segmentasyonuna odaklanmakta olup, klinik kararları yönlendirmek için gerekli olan patolojik42 sınıflandırmasını (örneğin, adenotöz vs. hiperplastik polipler) veya malignite risk değerlendirmesini ele almıyor. Beşinci olarak, bu çalışmada kullanılan veri setleri esas olarak yetişkin kolonoskopi incelemelerinden türetilmiştir. Pediatrik polipler, inflamatuar bağırsak hastalığıyla ilişkili polipler ve diğer özel patolojik tipler hakkında veri bulunmamaktadır. Modelin bu popülasyonlara genellenebilirliği hâlâ test edilmemiştir. Altıncı olarak, her modülün işlevini göstermek için ablasyon deneyleri ve nitel görselleştirmeler sunulsa da, modelin yorumlanabilirliği sınırlıdır. Derin öğrenme modellerinin karar alma süreci tamamen şeffaf değildir, bu da klinisyenlerin güvenini ve benimsenmesini etkileyebilir. Gelecekteki çalışmalar, model tahminlerinin daha sezgisel açıklamalarını sağlamak için gradyan tabanlı görselleştirme teknikleriniiçerebilir 43.
Yukarıda belirtilen sınırlamalara rağmen, PWD-Net protokolü, daha fazla geliştirme için temel oluşturabilecek polip segmentasyonu için tekrarlanabilir bir çerçeve sağlar. Olası yönler arasında: modelin video tabanlı kolonoskopi analizine genişletilmesi ve zamansal modelleme teknikleri dahil edilmesi; uçtan uca segmentasyon ve patolojik tipleme için bir sınıflandırma dalı eklenmesi; değerlendirmeyi daha büyük ve çeşitli çok merkezli veri setlerine genişletmek; ve yapay zeka destekli görüntü analizinin giderek önemli bir olanak sağlayan teknoloji olarak kabul edildiği endoluminal robotik platformlarda entegrasyonuaraştırıyor 44,45. Bu protokolle birlikte sağlanan ek kod paketi, yöntemin diğer araştırma grupları tarafından yeniden üretilmesini ve uyarlanmasını kolaylaştırmak amacıyla tasarlanmıştır.
Yazarların açıklayacak hiçbir şeyi yok.
Bu çalışma, Çin Ulusal Anahtar Ar-Ge Programı (Program No. 2022YFC3500200 ve 2022YFC3500204) tarafından finanse edilmiştir.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| Adam Optimizer | — | — | PyTorch'a Dahil Edilenler |
| Albumentations | Albumentations Ekibi | v1.0+ | Veri artırma kütüphanesi |
| CUDA Araç Seti | NVIDIA | v11.3+ | GPU hızlandırma |
| Kvasir-SEG veri seti | SimulaMet | — | https://datasets.simula.no/kvasir-seg/ |
| Matplotlib | Matplotlib Topluluğu | v3.4+ | Eğitim eğrilerinin görselleştirilmesi |
| NumPy | NumPy Topluluğu | v1.21+ | Sayısal hesaplama |
| NVIDIA Tesla P100 | NVIDIA | P100-PCIE-16GB | Eğitim ve çıkarım için GPU |
| OpenCV | OpenCV Topluluğu | v4.5+ | Görüntü ön işleme |
| Python | Python Yazılım Vakfı | v3.8+ | Programlama dili |
| PyTorch | Meta Platformlar | v1.12+ | Derin öğrenme çerçevesi |
| ResNet-50 önceden eğitilmiş ağırlıklar | PyTorch Model Hayvanat Bahçesi | — | ImageNet-1K önceden eğitilmiş |
| Ubuntu | Kanonik | 18.04+ | İşletim sistemi |
Request permission to reuse the text or figures of this JoVE article
Request Permission