이 프로토콜은 핀휠 컨볼루션, 이중 주의, 다중 스케일 융합을 통합하여 대장항문 폴립을 분할하는 U자형 딥러닝 네트워크를 구현합니다.
Method Article
이 프로토콜은 핀휠 컨볼루션, 이중 주의, 다중 스케일 융합을 통합하여 대장항문 폴립을 분할하는 U자형 딥러닝 네트워크를 구현합니다.
대장 폴립의 정확한 분절은 대장암의 조기 예방과 진단에 매우 중요합니다. 그러나 폴립의 형태, 크기, 질감이 매우 이질적이며, 장 환경의 복잡성(주름, 반사, 대변 잔류물 등)으로 인해 기존 방법들은 경계 위치 파악과 소형 폴립 검출에 여전히 큰 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 본 논문은 핀휠 컨볼루션과 이중 주의(PWD-Net)를 기반으로 한 폴립 분할 네트워크를 제안합니다. 제안된 네트워크는 U자형 인코더-디코더 아키텍처를 채택하며, 사전 학습된 ResNet을 인코더로 사용하여 다층 로컬 특징을 추출합니다. 구체적으로, 병목 계층에 핀휠 컨볼루션 모듈(PCM)이 도입되어 다중 각도 회전 컨볼루션 커널을 통해 폴립의 전역 기하학적 구조와 다방향 맥락 정보를 포착합니다. 채널 주의와 공간적 주의를 통합하는 이중 주의 메커니즘(DAM)은 배경 소음을 적응적으로 억제하고 폴립 영역 특징을 강화하도록 설계되었습니다. 또한, 다중 규모 특징 융합(MSF) 전략을 사용하여 깊은 의미 정보와 얕은 경계 세부사항을 결합하여 세분화 결과의 완전성과 정밀도를 모두 보장합니다. Kvasir-SEG 및 CVC-ClinicDB 데이터셋에서 수행된 실험 결과, PWD-Net은 각각 평균 Dice 계수 0.865와 0.944, IoU 점수 0.765와 0.892를 달성하여 기존 최첨단 방법을 크게 우수하게 달성했습니다. 제거 연구는 각 모듈의 효과를 검증하며, 교차 데이터셋 평가를 통해 모델의 강력한 일반화 능력을 확인한다. 이 연구는 임상 용종 분할에 대한 고정밀도이자 견고한 해결책을 제공하며, 대장암 전암성 병변의 조기 진단과 컴퓨터 지원 개입을 지원하는 데 큰 가치를 제공합니다.
대장암은 전 세계적으로 가장 흔한 악성 종양 중 하나로, 발생률과 사망률이 꾸준히 높습니다. 연구에 따르면 대부분의 대장암은 선종성 용종에서 발생하며, 이 과정은 보통 10년에서 15년 정도 걸려 조기 발견과 개입을 위한 귀중한 시간 창을 제공합니다. 선종 발견률(ADR)을 1% 증가시키면 대장암 위험을 약 3% 감소시켜 환자 사망률을 유의미하게 낮출 수 있습니다. 대장내시경은 대장암 검진의 금본위로 여겨지며, 검사 중 용종을 직접 제거할 수 있어 암 발생률과 사망률을 효과적으로 줄입니다.
하지만 기존 대장내시경은 내시경 전문의의 경험과 기술 수준에 크게 좌우됩니다. 주관적 판단, 시각 피로, 산만함과 같은 요인들이 20%에서 30%의 실패율을 초래할 수 있으며, 이는 선별 효과에 직접적인 영향을 미칩니다. 따라서 대장 용종의 자동 분할을 위한 컴퓨터 지원 탐지(CAD) 시스템 개발은 ADR 개선과 진단 누락 감소에 매우 중요합니다. 최근 임상 조사들은 인공지능을 내시경 병변 평가 워크플로우에 통합하려는 관심을 더욱 부각시키며, 견고하고 재현 가능한 분할 방법의 필요성을 강화했습니다.
최근 몇 년간 딥러닝은 특히 합성곱신경망(CNN)에서 의료 영상 분석에서 눈에 띄는 진전을 이루었으며, 이는 이미지분할 작업에 대한 특징 추출과 표현에 강력한 능력을 보여줍니다. 고전적인 의료 영상 분할 모델인 U-Net은 대칭 인코더-디코더 아키텍처를 사용하며 연결을 건너뛰어 정확한 픽셀 수준 분할을 달성하여 이 분야의 벤치마크가 되었습니다5. U-Net을 기반으로 복잡한 의료 영상 분할 작업을 해결하기 위해 많은 개선된 아키텍처가 제안되었습니다. UNet++는 중첩 및 밀집 스킵 연결을 도입하여 인코더와 디코더 특징 맵 간의 의미적 간극을 줄입니다. ResUNet++는 잔류 블록, 압축 및 여기 모듈, 확장된 컨볼루션, 주의 메커니즘을 통합하여 폴립 분할7에서 강력한 성능을 달성합니다. U2-Net은 다중 스케일 특징 정보를 포착하기 위해 2단계 중첩된 U자형 구조를 채택합니다. 최근에는 병렬 인코딩 및 디코딩 경로를 활용해분할 정확도를 더욱 향상시키는 이중 인코더-디코더 기반의 딥 폴립 분할 네트워크가 제안되었습니다.
한편, 주의 메커니즘의 도입은 기능 향상과 노이즈 억제를 위한 새로운 해결책을 제공합니다. 주의 U-Net은 주의 게이트를 사용해 목표 영역에 집중하고 무관한 배경 정보를 억제합니다.10. 이중 주의 네트워크(DANet)는 채널 및 공간 차원 모두에서 특징을 적응적으로 가중치하여 중요한 특징의 인식을 향상시킵니다. 트리플 어텐션 네트워크(TANet)는 다중 스케일 특징의 적응형 선택을 통해 세분화 성능을 더욱 향상시킵니다12.
자연어 처리와 컴퓨터 비전13에서 트랜스포머 아키텍처의 성공에 힘입어, 연구자들은 의료 이미지 분할에 대한 적용을 탐구하기 시작했습니다. TransUNet은 장거리 의존성을 사실상 모델링하기 위해 인코더로 트랜스포머를 처음으로 사용한 회사였습니다. Swin-UNet은 순수 트랜스포머 아키텍처를 채택하여 시프트 윈도우 메커니즘을 통해 효율적인 글로벌 정보 집계를 달성합니다. UTNet은 CNN의 로컬 특징 추출 능력과 Transformers16의 글로벌 모델링 능력을 결합한 하이브리드 아키텍처를 제안합니다.
폴립 세분화 분야에서 Polyp-PVT는 피라미드 비전 Transformer를 활용해 다중 스케일 글로벌의미 정보를 포착하며, 다중 스케일 중첩 UNet은 Transformers18을 통합하여 맥락적 이해를 향상시킵니다. 최근 연구들은 또한 교차 영역 폴립 분할에 대한 부정적 상관 학습 전략(19), 곰퍼츠 증강 분할 강화20, 경계 안내를 포함하는 주의 기반 아키텍처(21)를 탐구했습니다. 이러한 접근법들이 분할 성능을 어느 정도 향상시키긴 하지만, 폴립 분할은 여전히 여러 도전 과제에 직면해 있습니다. 첫째, 폴립은 형태, 크기, 질감에서 매우 이질적이며, 5mm 미만의 미세한 폴립부터 30mm를 넘는 큰 폴립까지 다양하며, 형태는 원형, 타원형부터 매우 불규칙한 형태까지 다양합니다. 둘째, 장 환경은 복잡하고 변동적이며, 점막 주름, 반사, 배설물 잔여물, 음식물 찌꺼기가 심각한 배경 간섭을 일으킵니다. 셋째, 많은 폴립은 경계가 흐릿하거나, 주름에 의해 부분적으로 막히거나, 장액에 잠겨 있어 경계 위치를 정확히 파악하는 것이 매우 어렵습니다.
기존 방법들은 이러한 문제를 해결하는 데 여전히 명확한 한계를 제시하고 있습니다. 전통적인 CNN은 국소 질감과 가장자리 특징을 추출하는 데 효과적이며; 그러나 고정된 정사각형 컨볼루션 커널은 특히 고도로 불규칙한 폴립의 경우 다양한 기하학적 형태를 포착하는 데 적합하지 않으며, 다방향 기하학적 특징을 효과적으로 모델링할 수 없습니다. 트랜스포머 기반 방법은 전역 의존성을 모델링할 수 있지만, 세밀한 국소 세부사항과 경계 정보를 포착하는 데는 덜 효과적입니다. 더불어, 계산 복잡성이 높아 실시간 임상 응용에는 덜 적합하다24. 최근 폴립 분할 기법인 PraNet(역주의 모듈을 사용해 주요 영역25), 경계 유도 캐스케이드 주의 네트워크(경계 특징 추출을 향상시키는26), 교차 주의 메커니즘을 통해 인코더와 디코더 기능을 융합하는 CAFE-Net(27)과 같은 최근 폴립 분할 방법들도 작은 폴립을 다룰 때 특징 표현이 불충분하고 경계 위치가 부정확합니다28, 흐릿한 경계와 복잡한 배경들. 더욱이 대부분의 방법은 기하학적 형태를 소홀히 하고, 다방향 맥락 정보를 충분히 활용하지 못해 불규칙한 폴립의 최적이 아닌 분할을 초래합니다.
요약하자면, 현재의 CNN 기반 방법은 고정된 정사각형 컨볼루션 커널에 의존하기 때문에 다방향 기하학적 특징을 포착할 수 없습니다. 트랜스포머 기반 접근법은 전역 모델링을 제공하지만 국소 경계 정밀도를 희생하고 높은 계산 비용을 부과합니다. 한편, 기존의 주의력 강화 및 다중 규모 융합 전략은 폴립 분할에 특별히 맞춤화된 통합 프레임워크 내에서 공동으로 최적화되지 않았습니다29. 이러한 격차는 기하학적 특징 모델링, 적응적 노이즈 억제, 그리고 교차 규모 특징 통합을 동시에 다루는 방법 개발을 촉진합니다.
이러한 문제를 해결하기 위해 이 프로토콜은 핀휠 컨볼루션과 이중 주의(PWD-Net)를 기반으로 한 폴리프 세그멘테이션 네트워크를 제시합니다. 제안된 네트워크는 기하학적 특징 모델링, 다차원 주의력 향상, 다중 규모 특징 융합을 통합하여 복잡한 폴립의 정밀한 분할을 가능하게 합니다. 이 연구의 주요 기여는 다음과 같이 요약됩니다: 핀휠 구조에서 영감을 받은 핀휠 컨볼루션 모듈(PCM)은 0°, 45°, 90°, 135°, 180°, 225°, 270°, 315° 등 여러 각도에서 합성곱 연산을 통해 폴립의 다방향 기하학적 특징을 포착하는 새로운 회전 컨볼루션 커널 설계를 제안합니다. 이 모듈은 병목 단계에서 기존의 합성곱 층을 대체하여 다양한 가장자리 방향을 효과적으로 인식하고 불규칙한 폴립의 표현을 크게 향상시킵니다. 이중 주의 메커니즘(DAM)은 대장내시경 이미지에서 주름, 반사, 대변 잔여물과 같은 배경 잡음을 다룹니다. 채널 주의와 공간적 주의를 통합하는 이중 주의 모듈이 설계되었습니다. 스킵 연결에 내장된 이 모듈은 배경 간섭을 적응적으로 억제하고 폴립 영역의 특징 반응을 향상시키며, "무엇이 중요한지"(채널 차원)와 "어디"가 목표가 위치한지(공간 차원)를 동시에 식별하여 이후 융합에 정제된 특징만 포함되도록 보장합니다. 다중 규모 특징 융합 전략(MSF)은 디코더에 도입된 계층적 메커니즘을 통해 깊은 의미 정보와 얕은 경계 세부사항을 모두 보존합니다. DAM 강화 인코더 기능과 업샘플링 디코더 기능을 점진적으로 통합함으로써, 이 전략은 다운샘플링으로 인한 공간적 세부 손실을 효과적으로 보정하여 작은 폴립을 정확히 탐지하고 경계를 정밀하게 구분할 수 있게 합니다.
이 연구는 공개된 익명화된 대장내시경 이미지 데이터셋(Kvasir-SEG)만을 사용합니다. 새로운 인간 대상 데이터는 수집되지 않았습니다. 식별 해제된 공개 데이터셋의 사후 분석에 대한 기관 검토 정책에서 확인된 바와 같이, 기관 윤리 승인과 환자 사전 동의는 필요하지 않았습니다.
1. 데이터 준비
2. 전체 건축
참고: PWD-Net의 매크로 수준 인코더-디코더 백본은 그림 1 을, 피처 플로우 내 핵심 모듈의 통합 및 상호작용은 그림 2 를 참조하세요. 전체 아키텍처는 용종의 크기 변화와 대장내시경 이미지에서의 배경 간섭을 처리하기 위해 U자형 인코더-디코더 설계를 따릅니다.
3. 핀휠 컨볼루션 모듈 (그림 3)

4. 이중 주의 메커니즘 (그림 4)
참고: 이중 주의 메커니즘(DAM)은 각 스킵 연결에 내장되어 배경 소음을 억제하고 채널 및 공간 차원 모두에서 폴립 영역 특징을 강화합니다.


5. 다중 규모 특징 융합
6. 손실 함수 및 훈련 구성



7. 의사 코드
알고리즘 1: PWD-넷 폴립 분할
1: 입력: 대장내시경 영상 I ∈ RH×W×3
2: 출력: 세그멘테이션 마스크 M ∈ {0,1}(H×W)
3:
4: 기능 PCM(X) ▷ 핀휠 컨볼루션 모듈
5: 기본 핵 W(3 x 3)를 정의하라. 각도 Θ = {0°, 45°, ..., 315°}
6: 각 θ에 대해 θ∈ do(행)
7: Wθ ← BilinearRotate(W, θ) ▷ 핵 회전
8: Yθ ← Conv2d(X, Wθ) ▷ 방향별 특징
9: 끝
10: Yout ← ReLU(BN(Conv1 x 1(Concat({Yθ})))) ▷ 집계
11: Y반환 아웃
12: 끝 함수
13:
14: 기능 DAM(F) ▷ 이중 주의 메커니즘
15: Ac ← Sigmoid(MLP(AvgPool(F))) ▷ 채널 주의 (r=16)
16: As ← 시그모이드(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ 공간적 주의
17: F' ← F ⊗ (α · Ac + β · As) ▷ 학습 가능한 α과 퓨즈, β (init=0.5)
18: 귀환 F'
19: 기능 종료
20:
21: 기능 PWD-Net(I)
22: 인코더: e1,e 2, e3, e4, e5 ← ResNet50_Stages(I) ▷ 5단계 사전 학습 인코더
23: 병목 현상: b ← PCM(e5) ▷ 병목 현상 PCM 적용
24: 연결 건너뛰기: si ← DAM(ei) = 1, 2, 3, 4 ▷ 필터 인코더 기능
25: 디코더:
26: d4 ← 더블 컨브(Concat(Up(b), s4))
27: d3 ← 더블 컨브(Concat(업(d4), s3))
28: d2 ← 더블 컨브(Concat(위(d3), s2))
29: d1 ← 더블 컨브(Concat(업(d2), s1))
30: M ← 시그모이드(Conv1 x 1(d1))
31: 귀환 M
32: 기능 종료
33:
34: 훈련:
35: 각 에포크 도에 대해
36: M̂ ← PWD-Net(I)
37: L ← 0.5 · BCE(M̂, Mgt) + 0.5 · DiceLoss(M̂, Mgt) ▷ λ = 0.5
38: 역전파를 통한 매개변수 업데이트 (Adam optimizer)
39: 끝
실험 장치
데이터셋
Kvasir SEG 데이터셋은 이질적인 폴립 외관을 가진 대장내시경 이미지에서 PWD Net의 분할 행동을 평가하는 데 사용되었습니다. 이 데이터셋은 1,000개의 주석이 달린 폴립 이미지를 포함하고 있으며, 폴립 크기, 형태, 질감, 조명, 배경 복잡성의 변동성을 포함하여 작은 표적 탐지, 경계 위치 파악, 시각적 간섭에 대한 견고성 평가에 적합합니다. 데이터셋은 훈련, 검증, 테스트 하위 집합으로 나뉘었으며, 최종 테스트 세트는 성능 평가에만 사용되었습니다. 이미지 분포는 표 1에 요약되어 있습니다.
구현 세부사항
재현성을 위해 필요한 구현 설정은 표 2 에 요약되어 있으며, 전체 절차적 세부사항은 데이터 준비 단계와 프로토콜 5.2절에 제공되어 있습니다. 결과 해석을 위해 보고된 모든 실험은 재료표에 명시된 동일한 입력 해상도, 하드웨어 환경, 평가 조건을 사용 했습니다. 보고된 값은 시드 = 42를 사용한 단일 실행에서 선택된 검증 다이스 체크포인트를 기반으로 하므로, 결과는 평균화된 교차 검증 결과가 아니라 고정된 실험 분할 하에서의 성능으로 해석되어야 합니다.
평가 지표
분할 성능은 주사위 계수, 합집합 교차, 픽셀 단위 정확도, 추론 속도를 사용하여 평가되었습니다. 주사위 계수와 교차 오버 유니온은 예측된 마스크와 전문가가 주석을 단 폴립 영역 간의 일치를 직접 반영하여 주요 중복 기반 지표로 사용되었습니다. 픽셀 단위의 정확도는 대장내시경 이미지에 큰 배경 영역이 포함된 경우가 많아 보조 측정 지표로 보고되었습니다. 추론 속도는 초당 프레임 수로 보고되었으며, 모델이 실용적인 계산 효율성을 유지하면서 세분화 품질을 향상시키는지 평가하기 위해 포함되었습니다.
기존 방법과의 비교
PWD-Net의 동작과 효과를 입증하기 위해 다섯 가지 대표적인 폴립 분할 기법과 비교합니다: CBSA(채널 부스트 공간 주의 네트워크)34, FSSA(특징 공유 공간 주의 네트워크), MSF(다중 규모 융합 네트워크), Pinwheel-Conv(주의 또는 융합 모듈 없는 핀휠 컨볼루션 기준선), PolaLinear(편극 선형 주의 네트워크). 모든 비교 방법은 공식 공개된 소스 코드를 사용해 재구현되며, 동일한 Kvasir-SEG 학습 세트(800 이미지)에서 동일한 전처리, 입력 해상도(352 x 352), 평가 설정 하에 학습하여 공정한 비교를 보장합니다. 표 3은 테스트 세트에 대한 정량적 결과를 제시합니다.
표 3에서 볼 수 있듯이, PWD-Net은 주사위 계수 0.865, IoU 0.765를 달성하여, 차선적 방법(CBSA)과 비교해 주사위에서 1.8%, IoU가 4.8% 향상되었습니다. 특히 PWD-Net은 910만 파라미터를 달성한 반면, CBSA는 1840만 파라미터로 우수한 효율성을 보여줍니다. PolaLinear와 Pinwheel-Conv는 더 빠른 추론 속도(각각 79 FPS, 72 FPS)를 제공하지만, 세그멘테이션 정확도는 눈에 띄게 낮아 PWD-Net이 평가된 데이터셋에 대해 정확성과 계산 비용 사이에서 합리적인 균형을 제공함을 시사합니다. 정성적 분할 행동을 설명하기 위해, 작은 폴립, 큰 폴립, 복잡한 배경, 흐릿한 경계를 포함하는 대표성 검사 샘플 5개를 선정하여 시각적 비교를 진행합니다. 그림 5는 네 가지 선택된 비교 방법(CBSA, FSSA, MSF, PWD-Net)의 세분화 결과를 현장 진실과 함께 보여줍니다. 각 예측 열에는 해당 메서드 이름이 라벨링되어 있습니다. Pinwheel-Conv와 PolaLinear는 시각적 명확성을 위해 이 수치에서 제외되었는데, 이는 양적 성능이 현저히 낮기 때문입니다; 따라서 이 그림은 표 3에서 비교된 방법들 중 선택된 부분집합을 나타냅니다.
그림 5에서 볼 수 있듯이, 작은 폴립 시나리오(1, 5행)에서는 FSSA와 MSF가 누락된 검출을 보이는 반면, PWD-Net은 표적을 더 완전하게 포착합니다. 대형 폴립 시나리오(2, 3열)에서는 CBSA와 FSSA가 눈에 띄는 경계 불규칙성을 발생시키는 반면, PWD-Net은 더 부드러운 경계를 생성합니다. 경계가 흐려진 시나리오(네 번째 행)에서 PWD-Net은 이중 주의 메커니즘을 통해 배경 잡음을 효과적으로 억제하는 것을 보여줍니다.
소작술 연구
PWD-Net에서 각 핵심 구성 요소의 기여도를 분석하기 위해 체계적인 소작 연구가 수행됩니다. ResNet-50을 기본 인코더로 사용하여 기본 모델을 형성하여, 핀휠 컨볼루션 모듈(Pinwheel), 듀얼 어텐션 메커니즘(Dual-Attention Mechanism, Dual-Attn), 다중 스케일 피처 융합(Multi-Scale Feature Fusion, MSF) 모듈이 점진적으로 통합됩니다. 표 4는 정량적 결과를 요약한 것입니다.
표 4의 주요 발견은 다음과 같이 요약할 수 있습니다. 첫째, 단일 모듈을 추가하면 기본 모델의 성능을 향상시킵니다. 이중 주의 메커니즘은 가장 눈에 띄는 향상을 가져다줍니다(주사위: +2.0%, IoU: +2.7%), 적응형 노이즈 억제의 효과를 뒷받침합니다. 핀휠 컨볼루션 모듈은 Dice에서 1.6% 향상을 기여하며, 불규칙한 폴립 형태에 대한 다방향 특징 추출의 이점을 나타냅니다. 둘째, 핀휠 컨볼루션과 이중 주의 메커니즘을 결합하면 성능이 더욱 향상되어 주사위 = 0.858, IoU = 0.748까지 올라가 두 모듈 간의 상보성을 시사합니다. 마지막으로, 세 모듈 통합 전체 PWD-Net은 기준선 대비 각각 3.3%와 6.0%의 개선을 보여 각 제안된 구성 요소의 기여도를 입증하여 관찰된 최고의 성능을 달성했습니다(Dice = 0.865, IoU = 0.765).
학습 과정 분석
PWD-Net의 훈련 역학과 수렴 특성을 설명하기 위해, 주요 성과 지표가 50개 훈련 시기에 걸쳐 기록되고 시각화됩니다. 그림 6 은 훈련 중 손실 함수, 주사위 계수, IoU, 정확도의 변동을 보여줍니다.
그림 6(a)에서 보듯, 훈련 손실과 검증 손실은 처음 10 에포크 내에 빠르게 감소한 후 점차 안정화됩니다. 검증 손실은 훈련 손실보다 약간 높게 유지되지만, 두 곡선은 작은 간격을 가진 일관된 추세를 따르며, 이는 모델이 심각한 과적합을 겪지 않음을 나타냅니다. 그림 6(b)은 다이스 계수가 초기 훈련 단계에서 급격히 상승하고, 약 30번째 에포크를 지나 0.86 이상으로 안정화됨을 보여줍니다. 그림 6(c)의 IoU 곡선도 유사한 성장 추세를 보이며, 후기 훈련 단계에서 약 0.765에 도달합니다. 그림 6(d)은 정확도가 94% 이상으로 수렴함을 나타냅니다. 중간 및 후기 학습 단계의 안정적인 검증 추세는 채택된 데이터 증강 전략과 코사인 어닐링 일정이 이 데이터셋의 과적합 완화에 기여함을 시사합니다.
폴립 크기 전반에 걸친 성능
PWD-Net의 임상 시나리오 적용 가능성을 추가로 평가하기 위해, 검사 세트(100장의 이미지)는 폴립 면적과 전체 영상 면적의 비율에 따라 세 가지 범주로 나뉩니다: 작은 폴립(< 5%), 중간 폴립(5%–30%), 그리고 큰 폴립(> 30%). 이 분류는 폴립 척도가 분절 난이도에 미치는 영향을 반영합니다. 표 5는 각 카테고리에 대한 정량적 성과를 제시합니다. 표 5에서 보듯, PWD-Net은 중간 폴립 범주에서 가장 좋은 성능을 보이며(Dice = 0.882, IoU = 0.790), 이는 이 범주의 더 큰 대표성(100장 중 54장)과 일치합니다. 대형 폴립에서의 성능은 비슷한 수준으로 유지됩니다(주사위 = 0.861, IoU = 0.760). 작은 폴립에서의 성능은 상대적으로 낮습니다(Dice = 0.812, IoU = 0.685), 이는 작은 표적이 이미지에서 차지하는 비율이 적고 경계 정보가 희박한 배경 잡음에 더 취약하기 때문입니다.
이 결과는 핀휠 컨볼루션 모듈의 다방향 특징 포착 능력과 이중 주의 메커니즘의 공간적 위치 파악 능력이 평가된 테스트 세트에서 다양한 폴립 척도에서 적절한 분할 품질을 유지하는 데 기여함을 시사합니다.

그림 1: PWD-Net 모델의 프레임워크. 핀휠 컨볼루션과 이중 주의(PWD-Net)를 기반으로 한 제안된 폴리프 분할 네트워크의 전반적인 구조적 틀로, 인코더(ResNet-50), 병목 현상(PCM), DAM 강화 스킵 연결, MSF 디코더, 그리고 대장항체 폴립 분할을 위한 출력 생성을 보여줍니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.

그림 2: PWD-Net의 전체 아키텍처 흐름도. PWD-Net 전체 아키텍처의 상세 흐름도로, 5단계 ResNet-50 인코더, PCM 병목 요소, DAM 스킵 연결, 다중 스케일 피처 퓨전 디코더, 최종 예측 생성 과정을 보여줍니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.

그림 3: 핀휠 합성곱 모듈의 회로도. 핀휠 컨볼루션 모듈의 구조 및 작동 도식으로, 다중 각도 회전 컨볼루션 커널, 바이리니어 보간 기반 회전, 채널 연결, 1 x 1 컨볼루션 집계를 시연합니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.

그림 4: 이중 주의 메커니즘의 구조 다이어그램. DAM의 아키텍처 다이어그램으로, 병렬 채널 주의 분기(→MLP 축소비 r = 16 → 시그모이드)와 공간 주력 분기(채널별 풀링→ 7 x 7 합성곱 → 시그모이드), 그리고 학습 가능한 계수가 α과 β인 가중 융합을 보여줍니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하세요.

그림 5: 세분화 결과의 정성적 비교. 각 행은 테스트 샘플을 나타냅니다. 왼쪽에서 오른쪽 순서: 입력 이미지, Ground Truth, CBSA, FSSA, MSF, PWD-Net(저희 제품). 시각적 명확성을 위해 Pinwheel-Conv와 PolaLinear는 이 그림에서 생략되었습니다; 완전한 정량적 비교는 표 3 을 참조하십시오. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.

그림 6: 50 에포크에 걸친 PWD-Net의 학습 곡선. (a) 훈련 및 검증 손실. (b) 주사위 계수. (c) 연합 교차로(IoU). (d) 픽셀 단위의 정확도. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.
| 훈련 하위 집합 | 샘플 수 | 비율 |
| 기차 세트 | 800 | 80% |
| 검증 집합 | 100 | 10% |
| 테스트 세트 | 100 | 10% |
| 총 세트 | 1000 | 100% |
표 1: 데이터셋 통계. Kvasir-SEG 데이터셋의 데이터 분할 분포(총 1,000장 이미지)는 이미지 수와 훈련, 검증, 테스트 하위 집합에 할당된 비율을 보여줍니다(무작위 시드 = 42).
| 카테고리 | 매개변수 항목 | 매개변수 설정 |
| 딥러닝 프레임워크 | 프레임워크 | 파이토치 |
| 하드웨어 환경 | GPU | 엔비디아 테슬라 P100 |
| 가속법 | GPU 가속 | 쿠다 |
| 입력 설정 | 입력 이미지 크기 | 352 × 352 |
| 이미지 포맷 | 이미지 포맷 | RGB 이미지 |
| 옵티마이저 | 옵티마이저 | 아담 |
| 초기 학습률 | 초기 LR | 1 × 10⁻4 |
| 배치 크기 | 배치 크기 | 16 |
| 훈련 시기 | 시대 | 50 |
| 손실 함수 | 손실 함수 | 주사위 손실 + BCE |
표 2: 실험 매개변수 설정. PWD-Net 훈련 및 평가를 위한 실험적 매개변수 설정. 완전한 단계별 구현 절차는 프로토콜의 데이터 준비 단계와 5.2절을 참조하십시오.
| 방법 | 주사위 ↑ | IoU ↑ | 정확도 ↑ | 매개변수 (M) ↓ | FPS ↑ |
| CBSA | 0.8466 | 0.717 | 0.9325 | 18.4 | 36 |
| FSSA | 0.7109 | 0.551 | 0.9012 | 9.8 | 61 |
| MSF | 0.7337 | 0.585 | 0.9086 | 11.5 | 54 |
| 핀휠-컨브 | 0.8007 | 0.6742 | 0.9401 | 7.9 | 72 |
| 폴라리니어 | 0.7213 | 0.5707 | 0.9113 | 6.6 | 79 |
| PWD-Net (저희 회사) | 0.865 | 0.7651 | 0.9478 | 9.1 | 63 |
표 3: 정량적 비교 결과. Kvasir-SEG 테스트 세트(100장)에서 PWD-Net과 다섯 가지 기존 폴립 분할 방법의 정량적 비교. 모든 방법은 동일한 데이터 분할, 전처리, 입력 해상도(352 x 352)로 평가됩니다. ↑는 높을수록 좋다는 뜻입니다; ↓는 낮을수록 좋다는 뜻입니다. *로 표시된 방법은 재구현된 것이 아니라 원래 출판물에서 인용된 결과를 나타냅니다.
| 구성 | 핀휠 | 듀얼 어텐 | MSF | 주사위 ↑ | IoU ↑ |
| 기본 기준 | × | × | × | 0.832 | 0.705 |
| + 핀휠 | √ | × | × | 0.848 | 0.725 |
| + 듀얼 어텐트 | × | √ | × | 0.852 | 0.732 |
| + MSF | × | × | √ | 0.844 | 0.72 |
| + 핀휠 + 듀얼 어트른 | √ | √ | × | 0.858 | 0.748 |
| 전체 (PWD-Net) | √ | √ | √ | 0.865 | 0.765 |
표 4: 소작술 연구 결과. Kvasir-SEG 테스트 세트에서의 소작 연구 결과로, Pinwheel 컨볼루션 모듈(Pinwheel), Dual-Attention Mechanism(Dual-Attention) 메커니즘(Dual-Attn), 다중 스케일 특징 융합(MSF)이 기저 ResNet-50 인코더에 점진적으로 기여함을 보여줍니다.
| 폴립 유형 | 번호 | 주사위 ↑ | IoU ↑ |
| 작은 폴립(< 5%) | 21 | 0.812 | 0.685 |
| 중간 크기의 폴립(5%–30%) | 54 | 0.882 | 0.79 |
| 큰 폴립(> 30%) | 25 | 0.861 | 0.76 |
표 5: 다양한 폴립 유형에 대한 PWD-Net의 성능 Kvasir-SEG 테스트 세트 내 다양한 폴립 크기 범주에 대한 PWD-Net 수행 결과(100장). 폴립 크기는 폴립 면적과 전체 이미지 면적의 비율로 정의됩니다.
보조 기록: PWD-Net 프레임워크 구현을 포함한 압축 아카이브. 이 파일에는 핀휠 컨볼루션 모듈(PCM)과 듀얼 어텐션 메커니즘(DAM)을 이용한 네트워크 아키텍처 정의 train.py, 데이터 로딩 파이프라인, 손실 함수, 학습 절차 구현, 테스트 데이터셋에 대한 모델 추론 및 평가 test.py, 필수 Python 라이브러리 및 해당 버전 requirements.txt model.py 포함되어 있습니다. 이 파일을 다운로드하려면 여기를 클릭해 주세요.
PWD-Net 프로토콜의 여러 설계 선택은 신뢰할 수 있는 세분화 결과를 달성하기 위해 매우 중요하며, 구현 시 세심한 주의가 필요합니다. 첫째, 인코더 백본의 선택과 초기화는 수렴 동작과 최종 성능에 직접적인 영향을 미칩니다. 이 프로토콜은 ImageNet에서 사전 학습된 ResNet-50 인코더를 사용하여 강력한 저수준 및 중간 수준 기능 초기화를 제공합니다. 이는 특히 훈련 데이터가 제한된 의료 이미지 분할 작업(본 연구에서 800장의 이미지)에서 중요합니다. 모든 인코더 계층을 정지 대신 미세 조정하면, 네트워크는 점막 질감과 스펙큘러 반사와 같은 대장내시경 이미지의 특정 특성에 미리 학습된 특징을 적응시킬 수 있습니다. 둘째, 각 핵심 모듈의 아키텍처 내 배치는 의도적입니다. 핀휠 컨볼루션 모듈(PCM)은 공간 해상도가 가장 낮지만 의미 정보가 가장 풍부한 병목 지점에 위치해 있어 과도한 계산 비용 없이 전 세계 기하학적 패턴을 효율적으로 캡처할 수 있습니다. 이중 주의 메커니즘(DAM)은 디코더가 아닌 스킵 연결부에 내장되어 있어 특성이 디코더로 전송되기 전에 배경 잡음을 억제하여 오염된 특성이 융합 단계를 통해 전파되는 것을 방지합니다. 제거 연구(표 4)는 이 설계를 뒷받침합니다: DAM이 개별 성능 향상 중 가장 큰 기여를 하므로(Dice: +2.0%), 특징 파이프라인에서 조기 노이즈 억제의 중요성을 확인시켜 줍니다. 셋째, 하이브리드 손실 함수(0.5 · BCE + 0.5 · Dice)는 픽셀 단위 분류 정확도와 영역 단위 중첩 최적화의 균형을 맞추고 있습니다. 이 조합은 특히 전경과 배경 군 불균형이 흔한 폴립 분절에서 중요합니다. 동일한 가중치(λ = 0.5)가 기본값으로 채택되었으며; 클래스 분포가 다른 데이터셋에서는 이 비율을 조정해야 할 수 있습니다(아래 문제 해결 참조).
수정 및 문제 해결
프로토콜을 다양한 실험 환경에 적응하기 위한 다음 수정 및 문제 해결 지침이 제공됩니다. 서로 다른 이미지 해상도나 폴립 크기 분포를 가진 데이터셋에 프로토콜을 적용할 때는 입력 해상도(352 x 352)를 조정해야 할 수 있습니다. 입력 크기가 클수록 메모리 소모가 증가하고 추론 속도가 느려지지만 소형 폴립 탐지가 향상될 수 있습니다. 만약 훈련 손실이 50 에포크 내에 수렴하지 않는다면, 초기 학습 속도를 줄이거나(예: 5 x 10⁻5로) 또는 코사인 어닐링 사이클 길이를 늘리는 것을 고려할 수 있습니다. 모델이 심한 스펙큘러 반사나 점막 주름이 있는 영역에서 높은 위양성률을 보인다면, Dice 손실 성분의 가중치(예: BCE의 λ = 0.4, Dice의 경우 0.6)를 증가시키면 픽셀 수준의 정확도를 희생하면서도 경계 정밀도가 향상될 수 있습니다. 반대로, 모델이 작은 폴립을 언더마디로 제거한다면 BCE 중량을 늘리는 데 도움이 될 수 있습니다. PCM의 회전각(현재 8개, 0°에서 315°까지 45° 단위)은 방향성 범위와 계산 비용 간의 균형을 나타냅니다. 4각(0°, 90°, 180°, 270°)으로 줄이면 계산량이 줄어들지만 사선 폴립 경계에 대한 민감도는 감소할 수 있습니다. DAM의 채널 주의 분기에서 감소비 r = 16은 이전 압축-여기 네트워크(32)에서 확립된 관례를 따릅니다; 비율이 작을수록 모델 용량이 증가하지만, 작은 데이터셋에서는 과적합이 발생할 수 있습니다. Kvasir-SEG보다 훨씬 큰 데이터셋의 경우, 배치 크기를 늘리고 그에 맞는 훈련 시기를 늘리고, 적절한 종료 지점을 결정하기 위해 검증 지표를 모니터링하는 것을 고려하세요.
대체 방법들에 대한 중요성
PWD-Net 아키텍처는 세 가지 상호 보완 모듈을 통해 기존 접근법의 특정 한계를 해결합니다. 표준 정사각 합성곱 커널에 의존하는 방법과 비교할 때, PCM은 다각도로 회전된 커널을 통해 방향 감도를 제공하여 대장항문 폴립의 불규칙하고 다양한 형태에 더 잘 적응할 수 있게 합니다. 단일 차원 주의 메커니즘(예: 압박 및 흥분 네트워크에서의 채널 전용 주의33)과 비교하면, DAM은 채널과 공간적 중요성을 함께 모델링하여 복잡한 대장내시경 환경에서 보다 포괄적인 노이즈 억제를 제공합니다. TransUNet34 , Polyp-PVT35와 같은 강력한 글로벌 모델링을 제공하지만 계산 비용이 더 많은 Transformer 기반 아키텍처와 비교할 때, PWD-Net은 비교적 작고 컴팩트한 모델 크기(91M 파라미터)와 실용적인 추론 속도(63 FPS)로 경쟁력 있는 성능을 달성하며, 이는 표 3에 문서화되어 있습니다.
본 연구에서 제시된 비교(표 3)는 동일한 데이터 분할, 전처리, 평가 프로토콜을 가진 통제된 조건에서 수행되었다는 점을 유의해야 합니다. 관찰된 성능 차이는 본 연구에 사용된 Kvasir-SEG 검사 세트(100장의 이미지)에 특이하며, 다른 데이터셋이나 임상 환경에 직접적으로 일반화되지 않을 수 있습니다. 표준화된 다중 데이터셋 벤치마크 하에서 추가로 확립된 기준선(예: PraNet36, ResUNet++37)을 포함하는 보다 광범위한 비교가 증거를 더욱 강화할 것이며 향후 연구를 위해 계획되고 있습니다. 최근 폴리프 세그멘테이션38 을 위한 이중 인코더-디코더 아키텍처 연구는 병렬 인코딩 및 디코딩 경로의 잠재력을 입증했습니다. PWD-Net 아키텍처는 단일 인코더-디코더 파이프라인 내에서 회전 기하학 모델링과 이중 주의 필터링에 중점을 두어 상호 보완적인 설계 철학을 나타냅니다.
이 연구의 몇 가지 중요한 한계점을 인정해야 합니다. 첫째, 실험적 범위에 관해서는, 본 연구는 Kvasir-SEG 데이터셋에서만 800개의 학습, 100개의 검증, 100개의 테스트 이미지로 단일 무작위 분할 결과를 보고합니다. 테스트 세트 크기(100장)는 비교적 작으며, 반복 실험이나 교차 검증 없이 단일 훈련 실행만 보고됩니다. 따라서 보고된 성과 지표는 특정 데이터 분배와 관련된 분산에 영향을 받을 수 있습니다. 향후 연구에서는 k-중개 교차 검증 또는 보고된 표준편차가 있는 다중 무작위 분할을 포함하여 보다 견고한 성능 추정치를 제공해야 합니다. 둘째, PCM은 다중 각도 커널 회전과 집계를 통해 추가적인 계산 오버헤드를 도입합니다. 전체 모델은 여전히 간결한 형태(910만 파라미터)를 유지하지만, 임상 환경에서 자원이 제한된 장치에 적용하려면 지식 정제나 모델 가지치기와 같은 기법을 통한 추가 최적화가 필요할 수 있습니다. 셋째, 모델은 정적인 이미지만으로 학습 및 평가되는 반면, 임상 대장내시경은 실시간 비디오 스트림을 통해 폴립의 외관, 크기, 시점이 연속된 프레임에 걸쳐 동적으로 변화합니다. 63 FPS의 추론 속도는 실시간 프레임 속도와 호환되지만, 이 지표만으로는 임상적 검증을 의미하지 않습니다. 임상 준비 성향 주장을 하기 위해서는 내시경 비디오 데이터, 리더 연구, 그리고 후속 임상 평가 평가 분석에 대한 전향적 검증이 필요합니다. 현재 연구는 임상적으로 검증된 시스템이라기보다는 방법론적 기여로 이해되어야 합니다.
넷째, AI 보조 폴립 분할의 임상 번역 경로는 단순한 분할 정확도를 훨씬 넘어섭니다. 최근 리뷰들은 고급 영상 및 분석 도구가 병변 분류, 병기 분류, 치료 계획 등 광범위한 내강관 워크플로우에 통합되어야 함을 강조했습니다. 현재 프로토콜은 이진 폴립 분절에만 집중하며, 임상 결정을 안내하는 데 필수적인 병리학적42 분류(예: 선종성 폴립 대 과형성성 폴립)나 악성 위험 평가는 다루지 않습니다. 다섯째, 이 연구에 사용된 데이터셋은 주로 성인 대장내시경 검사에서 도출되었습니다. 소아 용종, 염증성 장 질환과 관련된 용종 및 기타 특수 병리학적 유형에 대한 데이터는 제공되지 않습니다. 이 모델이 이들 집단에 일반화될 가능성은 아직 검증되지 않았습니다. 여섯째, 각 모듈의 기능을 설명하기 위해 소작 실험과 정성적 시각화가 제공되지만, 모델의 해석 가능성은 여전히 제한적입니다. 딥러닝 모델의 의사결정 과정은 완전히 투명하지 않아 임상가의 신뢰와 채택에 영향을 줄 수 있습니다. 향후 연구에서는 모델 예측에 대한 보다 직관적인 설명을 제공하기 위해 구배 기반 시각화 기법을 도입할 수 있습니다43.
위에서 언급한 한계에도 불구하고, PWD-Net 프로토콜은 후속 개발의 토대가 될 수 있는 폴립 분절의 재현 가능한 프레임워크를 제공합니다. 잠재적 방향으로는 시간 모델링 기법을 통합하여 비디오 기반 대장내시경 분석으로 모델을 확장하는 것; 종단 간 분절 및 병리적 분류를 위한 분류 분기 추가; 더 크고 다양한 다센터 데이터셋으로 평가 확대; 그리고 AI 지원 영상 분석이 점점 핵심 기술 중 하나로 인정받고 있는 내발광 로봇 플랫폼 내 통합을 탐구하는44,45. 이 프로토콜에 포함된 보조 코드 패키지는 다른 연구 그룹이 이 방법을 재생산하고 적응할 수 있도록 돕기 위한 것입니다.
저자들은 공개할 것이 없습니다.
이 연구는 중국 국가 중점 연구개발 프로그램(프로그램 번호 2022YFC3500200 및 2022YFC3500204)의 지원을 받았습니다.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| 아담 옵티마이저 | — | — | PyTorch에 포함되어 있습니다 |
| 알알멘테이션 | 알브멘테이션 팀 | v1.0+ | 데이터 증강 라이브러리 |
| CUDA 툴킷 | 엔비디아 | v11.3+ | GPU 가속 |
| Kvasir-SEG 데이터셋 | 시뮬라멧 | — | https://datasets.simula.no/kvasir-seg/ |
| 매트플롯립 | Matplotlib 커뮤니티 | v3.4+ | 훈련 곡선의 시각화 |
| 넘버피 | 넘파이 커뮤니티 | v1.21+ | 수치 계산 |
| 엔비디아 테슬라 P100 | 엔비디아 | P100-PCIE-16GB | 학습 및 추론을 위한 GPU |
| 오픈CV | OpenCV 커뮤니티 | v4.5+ | 이미지 전처리 |
| 파이썬 | 파이썬 소프트웨어 재단 | v3.8+ | 프로그래밍 언어 |
| 파이토치 | 메타 플랫폼 | v1.12+ | 딥러닝 프레임워크 |
| ResNet-50 사전 학습 중량 | 파이토치 모델 동물원 | — | ImageNet-1K 사전 학습 |
| 우분투 | 정경 | 18.04+ | 운영 체제 |
Request permission to reuse the text or figures of this JoVE article
Request Permission