基于风车卷积和双重注意力的息肉分割网络，用于结直肠癌前病变诊断

Ning Du; Xinqi Liu; Li Ji; Chuijie Wang

doi:10.3791/71178

Method Article

基于风车卷积和双重注意力的息肉分割网络，用于结直肠癌前病变诊断

DOI:

10.3791/71178

⸱

June 26th, 2026

Ning Du*¹ , Xinqi Liu*¹ , Li Ji² , Chuijie Wang³

¹National Cancer Center/National Clinical Research Center for Cancer/Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, ²Xinglin College of Liaoning University of Traditional Chinese Medicine, ³Liaoning University of Traditional Chinese Medicine Affiliated Hospital

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

该协议实现了一个U型深度学习网络，整合了风车卷积、双重注意力和多尺度融合技术，用于切片结直肠息肉。

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

准确分段结直肠息肉对于结直肠癌的早期预防和诊断至关重要。然而，由于息肉在形状、大小和质地上的高度异质性，以及肠道环境的复杂性（如褶皱、镜面反射和粪便残留物），现有方法在边界定位和小息肉检测方面仍面临重大挑战。为解决这些问题，本文提出了基于风车卷积和双重注意力（PWD-Net）的珊瑚体分割网络。所提网络采用U形编码器-解码器架构，使用预训练的ResNet作为编码器，提取多层局部特征。具体来说，在瓶颈层引入了风车卷积模块（PCM），通过多角度旋转卷积核捕捉息肉的全局几何结构和多方向上下文信息。一种整合通道注意力和空间注意力的双注意机制（DAM）旨在适应性地抑制背景噪声并增强珊瑚类区域特征。此外，采用多尺度特征融合（MSF）策略，将深度语义信息与浅边界细节结合，确保分割结果的完整性和精确性。在Kvasir-SEG和CVC-ClinicDB数据集上的实验表明，PWD-Net的平均Dice系数分别为0.865和0.944，IoU得分为0.765和0.892，显著优于现有的先进方法。消融研究验证了每个模块的有效性，跨数据集评估也证实了模型的强大泛化能力。本研究为临床息肉分割提供了高精度且稳健的解决方案，为结直肠癌前病变的早期诊断和计算机辅助干预提供了重要价值。

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

结直肠癌是全球最常见的恶性肿瘤之一，发病率和死亡率一直都很高。研究表明，大多数结直肠癌由腺瘤性息肉发展，这一过程通常需要10到15年，为早期发现和干预提供了宝贵的时间窗口。腺瘤检测率（ADR）提高1%可降低约3%的结直肠癌风险，显著降低患者死亡率¹。结肠镜被视为结直肠癌筛查的黄金标准，能够在检查时直接切除息肉，从而有效降低癌症发生率和死亡率。

然而，传统结肠镜检查很大程度上依赖于内镜医生的经验和技能水平。主观判断、视觉疲劳和分心等因素可能导致20%–30%的漏诊率，直接影响筛查效果².因此，开发用于结直肠息肉自动分割的计算机辅助检测（CAD）系统对于提升ADR和减少漏诊具有重要意义。近期临床调查进一步凸显了将人工智能融入内窥镜病灶评估工作流程的兴趣，强化了对稳健且可重复的分段方法的需求³.

近年来，深度学习在医学图像分析领域取得了显著进展，尤其是卷积神经网络（CNN），其在图像^{分割任务中}展现出强大的特征提取和表示能力。作为经典的医学图像分割模型，U-Net采用对称编码-解码架构并跳跃连接以实现精确的像素级分割，成为该领域的标杆⁵。基于U-Net，提出了许多改进的架构以应对复杂的医学图像分割任务。UNet++ 通过引入嵌套和密集跳跃连接，减少了编码器和解码器特征映射之间的语义差距⁶.ResUNet++集成了残差块、挤压与激发模块、膨胀卷积和注意力机制，在息肉切割⁷中表现出色。U^2-Net采用两层嵌套的U形结构来捕捉多尺度^{特征信息8}。最近，提出了基于双编码-解码器的深度息肉切片网络，利用并行编码和解码路径进一步提升^{切割准确性}9。

与此同时，注意力机制的引入为特征增强和噪声抑制提供了新的解决方案。注意力 U-Net 利用注意力门聚焦目标区域，同时抑制无关背景信息¹⁰。双重视网络（DANet）自适应地加权通道维度和空间维度的^{特征，提升}了对关键特征的感知。三重注意力网络（TANet）通过多尺度特征的自适应选择进一步提升了分段性能¹².

随着Transformer架构在自然语言处理和计算机视觉¹³领域的成功，研究人员开始探索其在医学图像分割中的应用。TransUNet是第一个使用变换器作为编码器来模拟远程依赖关系的^机构。Swin-UNet采用纯Transformer架构，并通过移位窗口机制实现高效的全球信息聚合¹⁵。UTNet提出了一种混合架构，结合了CNN的局部特征提取能力与Transformers¹⁶的全局建模能力。

在息肉分割领域，Polyp-PVT利用金字塔视野Transformer捕捉多尺度的全局语义信息¹⁷，而多尺度嵌套UNet通过整合^{Transformers18}增强上下文理解。近期研究还探讨了跨域珊瑚体分割的负相关学习策略（¹⁹）、Gompertz增强切割增强（²⁰）以及基于注意力的边界指导架构（²¹）。尽管这些方法在一定程度上提高了分段性能，但息肉分段仍面临若干挑战。首先，水螅体在形态、大小和质地上表现出高度异质性，从小于5毫米的微型水螅体到超过30毫米的大水螅体不等，形状从圆形椭圆形到高度不规则不等。其次，肠道环境复杂多变，黏膜褶皱、镜面反射、粪便残留物和食物残渣会带来严重的背景干扰。第三，许多息肉边界模糊，可能被褶皱部分阻塞，或浸没在肠道液体中，这使得精细定位边界极具挑战性²²。

现有方法在应对这些挑战方面仍存在明显局限性。传统CNN在提取局部纹理和边缘特征方面非常有效;然而，固定方形卷积核并不适合捕捉多样的几何形状²³，尤其是对于高度不规则的水螅，且无法有效模拟多方向几何特征。基于Transformer的方法可以模拟全局依赖关系，但在捕捉细致的局部细节和边界信息方面效果较差。此外，其高计算复杂性使其不适合实时临床应用²⁴。近期的珊瑚体分割方法如PraNet，利用反向注意力模块细化关键区域²⁵，边界引导级联注意力网络增强边界特征提取²⁶，以及CAFE-Net通过交叉注意机制融合编码器与解码器特征²⁷，在处理小型息肉时仍面临特征表示不足和边界定位不准确的情况²⁸模糊的界限和复杂的背景。此外，大多数方法忽视了几何形态学，未能充分利用多方向上下文信息，导致不规则形态息肉的切片效果不佳。

总之，当前基于卷积网络的方法由于依赖固定的正方形卷积核，无法捕捉多方向几何特征。基于变换器的方法是实现全局建模，但牺牲了局部边界精度，并且计算成本较高。与此同时，现有的注意力增强和多尺度融合策略尚未在专门针对息肉切割的统一框架内得到联合优化²⁹。这些空白促使开发一种同时涵盖几何特征建模、自适应噪声抑制和跨尺度特征整合的方法。

为解决这些问题，该协议提出了基于风车卷积和双重注意力（PWD-Net）的多样分段网络。该网络整合了几何特征建模、多维注意力增强和多尺度特征融合，实现复杂息肉的精确分割。本研究的主要贡献总结如下：风车卷积模块（PCM），灵感来自风车的结构，提出了一种新颖的旋转卷积核设计，通过卷积操作在多角度（0°、45°、90°、135°、180°、225°、270°和315°）捕捉多方向的卷积几何特征。该模块在瓶颈阶段取代了传统的卷积层，使得对多样边缘方向的有效感知成为可能，并显著提升了不规则形状息肉的表现。双重注意机制（DAM）用于处理结肠镜图像中的背景噪声，如褶皱、反射和粪便残留物。设计了一个集成通道注意力和空间注意力的双注意力模块。该模块嵌入跳跃连接中，通过共同识别“重要”（通道维度）和“位置”（空间维度）来增强珊瑚虫区域的特征响应，确保后续融合仅涉及精细特征。多尺度特征融合策略（MSF）通过译码器引入的分层机制，既保留了深层语义信息，也保留了浅层边界细节。通过逐步整合DAM增强编码器功能与上采样解码器功能，该策略有效补偿降采样引起的空间细节损失，实现小息肉的准确检测和边界划定。

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究仅使用公开可得的匿名结肠镜图像数据集（Kvasir-SEG）。未收集新的人类受试者数据。机构伦理批准和患者知情同意未被要求，这一点在去标识化公开数据集的回顾性分析机构审查政策中得到了确认。

1. 数据准备

从官方仓库下载Kvasir-SEG数据集33（https://datasets.simula.no/kvasir-seg/）。该数据集包含1000张带有相应像素级地面真实掩码的水螅体图像。
将数据集随机分为训练组（800张图片）、验证组（100张图片）和测试组（100张图片），使用固定的随机种子（种子=42）的比例为8：1：1。确认三个子集之间没有重叠图像，以防止数据泄露。
将所有图像及对应的遮码缩放为352 x 352像素，图像采用双线性插值，遮罩则使用最近邻插值。
将像素值除以255归一化为[0， 1]，然后应用ImageNet按通道平均相减（0.485、0.456、0.406）和标准差归一化（0.229、0.224、0.225）。
仅对训练集应用以下增强变换（不应用于验证集或测试集）：随机水平翻转（概率 = 0.5）;随机垂直翻转（概率=0.5）;随机旋转（范围：−30°至+30°，概率=0.5）;随机多尺度调整尺寸（比例因子：0.75至1.25，概率=0.5）
注意：对图像及其对应的遮罩应用相同的空间变换以保持对齐。在开始训练前，通过目视检查多个增强图像-掩码对来验证增强的正确性。

2. 整体建筑

注意：请参见图1，了解PWD-Net的宏级编码器-解码器骨干，图2中核心模块在特征流中的集成与交互。整体架构采用U形编码-解码器设计，以处理息肉的尺度变化和结肠镜图像中的背景干扰。

主干网与编码路径（图1）
1. 使用ImageNet预训练的ResNet-50（来源于官方PyTorch模型动物园）作为骨干编码器30。在培训过程中对所有编码层进行微调。
2. 将输入结肠镜图像（调整为352 x 352像素）通过五级残余卷积块，提取层级特征。特征图的空间分辨率在五个阶段中逐步下采样，通道维度相应增加（64 → 128 → 256 → 512 → 1024）。
3. 在瓶颈（最深编码层）时，用Pinwheel卷积模块（PCM，见第3节描述）替代标准卷积层，以低分辨率捕捉全局几何形态和多方向上下文信息。
  注意：五个编码阶段对应标准的ResNet-50层组：conv1、layer1、layer2、layer3和layer4。预训练权重提供了稳健的低层和中层特征初始化，缩短小型医学数据集的收敛时间。
关键组件与特征交互（见图2和图3）
1. 在通过跳接连接将输出传输到解码器之前，先对每个编码阶段的输出应用双重注意机制（DAM，详见第4节）。这一步骤自适应地抑制了由肠道褶皱和镜面反射产生的背景噪声，同时增强了息肉区域的特征响应。只有经过过滤的特征会传递给对应的解码层。
2. 在解码器中，通过双线性上采样逐步恢复空间分辨率。在每个解码层，将前一解码阶段的上采样特征与具有相同空间分辨率的DAM增强编码器特征连接起来。
3. 应用两层连续卷积层（每层后分别进行批量归一化和ReLU激活）来融合多尺度信息。这就是第5节中描述的多尺度特征融合（MSF）策略。
  注意：解码器从深层到浅层（第5→第1阶段）推进，确保深度语义定位信息和浅边界细节信息在每个层级都能有效整合。
输出产生
1. 对最终解码器输出施加卷积层和S形激活函数，生成预测掩码。
2. 使用0.5阈值对预测掩罩进行二元化，得到最终的分割结果，预测≥概率为0.5的像素被归类为息肉，其余像素为背景。

3. 风车卷积模（图3）

风车卷积模块（PCM）取代了标准的瓶颈卷积，用于捕捉息肉的多向几何特征。实现该模块的具体步骤如下：
1. 定义一个大小为3 x 3的基卷积核W，输入通道_为C，输出通道_为C。
2. 定义旋转角度集合 Θ = {0°， 45°， 90°， ...， 315°}。对于每个角度θ∈Θ，通过对W应用基于双线性插值的旋转生成旋转核W_θ 。所有八个旋转核共享相同的基准参数;只有权重的空间排列不同。
3. 对于每个角度θ，计算方向特定的特征映射：
  
  其中 X 是输入特征映射。
4. 沿通道轴逐通道连接，将八个方向特征映射聚合，得到维数为（8 x C_out） x H x W的张量。然后应用1×1卷积，将通道维数降回C_外，接着进行批量归一化和ReLU激活³¹：
  
  注意：旋转和插值是在核权重上进行，而非输入特征映射。该设计实现了参数高效的多向特征提取，而无需增加输入分辨率。在当前实现中，瓶颈阶段的C_输入 =1024，C_输出 =1024，匹配ResNet-50第4层的输出信道维度。完整实现请参阅补充代码包。

4. 双重视机制（图4）

注意： 双重关注机制（DAM）嵌入每个跳跃连接中，以抑制背景噪声并增强从通道和空间维度的息肉区域特征。

频道关注
频道注意力分支识别哪些功能频道信息量最大。给定输入特征 F ∈ R^C×H×W：
1. 通过全局平均池压缩空间维度，得到通道描述符z∈R^C×1×1。
2. 将 z 传递给一个两层 MLP（全连通层），其约简比为 r = 16。第一层通过激活ReLU将维度从C降低到C/16;第二层通过S形激活将信道权重向量Ac从C/16恢复到C，生成通道权重向量_Ac：
  
  其中δ表示ReLU，σ表示S型形。
空间注意力
空间注意力分支定位目标区域：
1. 沿通道维度应用最大池化和平均池化，生成两个尺寸为1 x H x W的二维特征图。
2. 沿信道轴将两张映射串接成一个 2 x H x W 张量。施加一个7 x 7卷积层，然后进行S形态激活，生成空间权重映射A_s ∈R^1×H×W：
功能融合
1. 通过逐元素乘法将通道和空间注意力输出与输入特征融合：
  
  其中α和β是可学习的平衡系数，均初始化为0.5，并在训练过程中通过基于梯度的优化与网络参数同步更新。
  注意：完整实现请参阅补充代码包（dam_module.py）。

5. 多尺度特征融合

在解码器中应用多尺度特征融合（MSF）策略，以解决深层特征中的空间细节丢失问题。在每个解码器阶段，执行以下操作：
使用双线性插值法将前一解码器阶段的特征图上溯2倍。
将上采样特征与DAM增强的编码器特征沿信道轴对应空间分辨率的特征串接。
应用两个连续的3 x 3卷积层（每个层后接批次归一化和ReLU激活³²）来融合连接的特征。
注意：这种跨层融合确保了珊瑚虫的边界细节（由浅编码特征提供）和语义定位（由深层特征提供）同时被保留，从而生成细粒度的切片结果。

6. 损失函数与训练配置

损失函数
1. 采用混合损失函数L_total来联合优化网络，解决珊瑚虫分割中普遍存在的前景-背景类别不平衡问题。
  二元交叉熵损失（L_BCE）衡量像素级分类精度：
  
  其中 N 是像素总数，y_i ∈ {0,1} 是真实标签，ŷ_i ∈ [0,1] 是预测概率。
2. 骰子损失（L_Dice）量化了预测区域与真实区域之间的集合相似度：
  
  其中ε是一个平滑因子（设为1 x 10⁻⁵），以避免被零除法。
  设λ = 0.5以平衡两个损失项的贡献。
训练配置
1. 用ImageNet预训练的ResNet-50权重初始化编码器。使用Kaiming统一初始化初始化所有解码层、PCM和DAM参数。
2. 配置优化器和训练计划如下。使用Adam优化器，条件为β₁ = 0.9，β₂ = 0.999。将初始学习率设置为1 x 10⁻⁴。应用余弦退火学习率计划，T_最大值 = 50，η_min = 1 x 10⁻⁶。使用批次大小为16，训练模型以50个时代。
3. 在训练集上训练模型50个时代（800张图像）。每个纪元结束时，使用Dice系数作为主要监测指标，在验证集（100张图像）上评估模型。
4. 保存验证集上达到最高骰子系数的模型检查点。将该检查点作为测试集后续所有评估的最终模型。
  注意：提前停车并未被明确应用。最佳验证骰检查点选择策略作为模型选择准则。所有实验均使用 材料表中指定的硬件和软件环境进行。在描述配置下，训练50个纪元对800张图像约需2小时。所有报告的结果均来自使用指定随机种子（种子=42）进行的单次训练运行。请参阅补充代码包以获取完整的培训脚本。

7. 伪代码

使用 算法1 作为PWD Net的完整工作流程图。将算法中的PCM、DAM、主架构和训练流水线块与补充代码包中的对应文件匹配。
实现第4至12行所示的PCM模块。定义一个底3 x 3卷积核，并利用双线性插值生成8个旋转核，分别位于0°、45°、90°、135°、180°、225°、270°和315°。
所有旋转的PCM核保持相同的可学习基础参数。对于每个旋转角度，计算一个方向的特征图。
将八个PCM特征映射沿通道维度串接。应用1 x 1卷积、批量归一化和ReLU激活，以恢复原始信道维数。
实现第14至19行所示的DAM模块。应用全局平均池生成信道描述符，然后通过一个减简比为16的两层MLP以获得信道权重。
通过对输入特征应用按通道平均池和最大池化来生成空间注意力图。将两张映射串接起来，并用7 x 7卷积处理，然后激活Sigmoid。
通过按元素乘法将DAM通道和空间注意力输出与输入功能融合。对两个可学习系数为α和β的注意力映射加权，均初始化为0.5。
构建21至32行所示的主要PWD网络架构。将输入图像经过预训练的ResNet 50编码器的五级，获得e1到e5，空间分辨率从H x W降至H/32 x W/32。
在瓶颈处对e5施加PCM。在通过跳过连接将这些功能发送给解码器之前，先将DAM应用到e1到e4。
从深层到浅层解码特征图。在每个解码器级别，对前一个特征进行上采样，将其与相应的DAM增强编码器功能串接，并应用DoubleConv以实现特征融合。
通过1 x 1卷积生成分割输出，然后进行S形形激活。使用所得的像素概率映射作为预测掩码。
实现第34至39行所示的训练循环。在每个纪元中，通过PWD网进行前向传播并计算预测掩码。
计算训练损失为0.5乘以BCE损失加上0.5乘以骰子损失。通过反向传播，用Adam优化器更新所有可学习参数。

算法1：PWD-网息肉分割
1：输入： 结肠镜图像 I ∈^{R H×W×3}
2：输出： Segmentation mask M ∈ {0,1}^（H×W）
3:
4：功能 PCM（X） ▷ 风车卷积模块
5：定义基核W（3 x 3），角度Θ = {0°， 45°， ...， 315°}
6：对每个 θ 都 ∈ Θ 做
7： W_θ ← 双线性旋转（W， θ） ▷ 旋转核
8： Y_θ ← Conv2d（X， W_θ） ▷ 方向特定特征
9：结束
10： Y_out ← ReLU（BN（Conv1 x 1（Concat（{Y_θ}））））） ▷ 聚合
11：返回Y_输出
12：结束函数
13:
14：函数 DAM（F） ▷ 双关注机制
15： A_c ← S形形体（MLP（AvgPool（F））） ▷ 通道注意力（r=16）
16： A_s ← S形结肠（Conv7 x 7（[平均池（F）;MaxPool（F）]）） ▷ 空间注意力
17： F' ← F ⊗ （α ·A_c + β ·A_s） ▷ 与可学习α融合，β （初始值=0.5）
18：回归 F'
19：结束功能
20:
21：功能 PWD-Net（I）
22：编码器： e₁，_{e 2}， e₃， e₄， e₅ ← ResNet50_Stages（I） ▷ 5级预训练编码器
23：瓶颈： b ← PCM（_{e 5}） ▷ 在瓶颈处应用 PCM
24：跳过连接： s_i ← DAM（e_i）对于 i = 1， 2， 3， 4 ▷ 滤波器编码器特性
25：解码器：
26： d₄ ← 双人对话（Concat（Up（b），s₄））
27： d₃ ← 双人对话（Concat（上（d₄），s₃））
28： d₂ ← 双人对话（Concat（上（d₃），s₂））
29： d₁ ← 双重对话（Concat（上（d₂），s₁））
30： M ← 乙状结肠（Conv1 x 1（d₁））
31：回归 M
32：终结函数
33:
34：训练：
35：每个纪元
36： M̂ ← PWD-Net（I）
37： L ← 0.5 ·BCE（M̂， M_gt） + 0.5 ·DiceLoss（M̂， M_gt） ▷ λ = 0.5

38： 通过反向传播更新参数（Adam optimizer）
39：结束

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

实验装置
数据集

Kvasir SEG数据集用于评估患有异质性息肉的结肠镜图像中PWD Net的分割行为。该数据集包含1000个像素注释的珊瑚体图像，涵盖珊瑚体大小、形状、纹理、光照和背景复杂度的变异，适合评估小靶检测、边界定位及视觉干扰的韧性。数据集被划分为训练、验证和测试子集，最终测试集仅用于性能评估。图像分布总结见 表1。

实现细节

实现可重复性的设置总结于 表2， 完整的程序细节则在数据准备步骤和协议第5.2节中提供。在解释结果时，所有报告的实验都使用了材料表中列出的相同输入分辨率、硬件环境和评估条件。报告的数值基于单次运行中选定的验证骰检查点，使用种子=42，因此结果应被解释为固定实验分割下的性能，而非平均交叉验证结果。

评估指标

分割性能通过Dice系数、交集除并、像素级精度和推理速度进行评估。Dice系数和交叉点与联合交叉作为主要的重叠指标，因为它们直接反映了预测面罩与专家注释的息肉区域之间的一致性。像素级准确率作为补充测量报告，因为结肠镜图像通常包含较大的背景区域。推理速度（以每秒帧数报告）被纳入，以评估模型在提升分割质量的同时，是否保持了实际的计算效率。

与现有方法的比较
为验证PWD-Net的行为和有效性，进行了五种代表性的息肉分割方法的比较：CBSA（通道增强空间注意力网络）³⁴、FSSA（特征共享空间注意力网络）、MSF（多尺度融合网络）、Pinwheel-Conv（无注意力或融合模块的风车卷积基线）和PolaLinear（极化线性注意力网络）。所有比较方法均使用其官方发布的源代码重新实现，并在相同的Kvasir-SEG训练集（800张图像）上进行训练，采用相同的预处理、输入分辨率（352 x 352）和评估设置，以确保公平的比较。表3 展示了测试集的定量结果。

如表3所示，PWD-Net的骰子系数为0.865，借款为0.765，比次优方法（CBSA）相比，骰子提升了1.8%，借信提升了4.8%。值得注意的是，PWD-Net的参数为910万，而CBSA为1840万，显示出良好的效率。虽然PolaLinear和Pinwheel-Conv分别提供更快的推断速度（79和72 FPS），但它们的分割精度明显较低，表明PWD-Net在评估数据集的准确性和计算成本之间提供了合理的平衡。为说明定性分割行为，选取五个代表性样本，涵盖小息肉、大息肉、复杂背景和模糊边界进行视觉比较。图5 展示了四种选定比较方法（CBSA、FSSA、MSF和PWD-Net）的分割结果及实际数据。每个预测列都标注了对应的方法名称。为了视觉清晰，Pinwheel-Conv和PolaLinear未包含在图中，因为它们的定量性能明显较低;因此，该图代表了表3中比较方法的一个精选子集。

如图5所示，在小息肉场景（第一和第五行）中，FSSA和MSF会漏检，而PWD-Net则更完整地捕获目标。在大息肉场景（第二和第三排）中，CBSA和FSSA会产生明显的边界不规则，而PWD-Net则生成更平滑的边界。在模糊边界场景（第四行），PWD-Net展示了通过双注意力机制有效抑制背景噪声。

消融研究
为分析每个核心组成部分在PWD-Net中的贡献，进行了系统消融研究。以ResNet-50为骨干编码器，逐步整合了风车卷积模块（Pinwheel）、双注意力机制（Dual-Attn）和多尺度特征融合（MSF）模块。表4 总结了这些定量结果。

表4中的关键发现可以总结如下。首先，添加任意单一模块可以提升基线模型的性能。双注意力机制带来了最显著的提升（骰子：+2.0%，IoU：+2.7%），支持自适应噪声抑制的有效性。Pinwheel卷积模块在Dice中贡献了1.6%的改进，表明多方向特征提取对不规则水螅形状的益处。其次，将风车卷积和双注意力机制结合，进一步提升了性能，使骰子 = 0.858 和 IoU = 0.748 显示两者模块互补。最后，完整的PWD-Net（整合所有三个模块）实现了最佳观察表现（Dice = 0.865，IoU = 0.765），分别比基线提升3.3%和6.0%，展示了每个拟议组件对该数据集的贡献。

训练过程分析
为了说明PWD-Net的训练动态和融合特性，记录并可视化了50个训练时期的关键绩效指标。图6 展示了训练过程中损失函数、骰子系数、IoU和精度的变化。

如图6（a ）所示，训练损失和验证损失在前10个时代内迅速下降，随后逐渐稳定。验证损失始终略高于训练损失，但两条曲线沿用较小间隙的一致趋势，表明模型未出现严重的过度拟合。图6（b）显示，骰子系数在早期训练阶段急剧上升，约在第30纪元后收敛，并稳定在0.86以上。图6（c ）中的IoU曲线也呈现出类似的增长趋势，在训练后期达到约0.765。图6（d）显示准确率收敛率超过94%。中后期训练阶段的稳定验证趋势表明，采用的数据增强策略和余弦退火计划有助于减轻该数据集的过拟合。

不同水螅大小的表现
为进一步评估PWD-Net在不同临床情境中的适用性，测试集（100张图像）根据息肉面积与影像面积的比例分为三类：小息肉（<5%）、中等息肉（5%–30%）和大型息肉（>30%）。该分类反映了珊瑚体鳞片对分段难度的影响。表5 展示了各类别的定量表现。如表5所示，PWD-Net在中等珊瑚虫类别中表现最佳（骰子=0.882，IoU=0.790），这与该类别的更大代表性（100张测试图像中有54张）相符。对大型息肉的表现保持在相当水平（骰子 = 0.861，IoU = 0.760）。小珊瑚虫的性能相对较低（Dice = 0.812，IoU = 0.685），主要因为小靶只占图像较小比例，且边界信息较稀疏时更容易受到背景噪声影响。

这些结果表明，Pinwheel卷积模块的多向特征捕获能力和双关注机制的空间定位能力，有助于在评估测试集中维持不同息肉尺度上的合理分割质量。

figure-results-1
图1：PWD-Net模型框架。基于风车卷积与双重注意力（PWD-Net）所提出息肉分割网络的整体结构框架，展示了编码器（ResNet-50）、瓶颈（PCM）、DAM增强跳接连接、MSF解码器及结直肠息肉切割的输出生成。请点击此处查看该图的放大版本。

figure-results-2
图2：PWD-Net的整体架构流程图。完整PWD-Net架构的详细流程图，展示了五级ResNet-50编码器、PCM瓶颈、DAM跳跃连接、多尺度特征融合解码器及最终预测生成。请点击此处查看该图的放大版本。

figure-results-3
图3：Pinwheel卷积模的示意图。 Pinwheel卷积模块的结构与操作示意图，演示多角度旋转卷积核、基于双线性插值的旋转、通道连接以及1×1卷积聚合。请点击此处查看该图的放大版本。

figure-results-4
图4：双重视机制结构图。 DAM的架构图，展示了并行通道注意力分支（MLP→全局平均池化，缩减比r = 16 → S形形）和空间注意力分支（通道层池→7 x 7卷积→S形形），随后是可学习系数为α和β的加权融合。请点击此处查看该图的放大版本。

figure-results-5
图5：分割结果的定性比较。每一行代表一个测试样本。从左到右的列：输入图像、Ground Truth、CBSA、FSSA、MSF 和 PWD-Net（我们的）。为了视觉清晰起见，Pinwheel-Conv和PolaLinear未包含;完整的定量比较见表3 。请点击此处查看该图的放大版本。

figure-results-6
图6：PWD-Net在50个时代的训练曲线。（a）训练和验证损失。（b）骰子系数。（c）联合交叉口（借款）。（d）像素级精度。请点击此处查看该图的放大版本。

训练子集	采样数量	比例
火车模型	800	80%
验证集	100	10%
测试集	100	10%
全套	1000	100%

表1：数据集统计数据。Kvasir-SEG数据集的分组分布（共1,000张图片），显示训练、验证和测试子集的图像数量及比例（随机种子=42）。

类别	参数项	参数设置
深度学习框架	框架	PyTorch
硬件环境	GPU	NVIDIA 特斯拉 P100
加速度法	GPU 加速	CUDA
输入设置	输入图像尺寸	352×352
图像格式	图像格式	RGB图像
优化器	优化器	亚当
初始学习率	初始LR	1 × 10⁻⁴
批次大小	批次大小	16
训练时期	时代	50
损失函数	损失函数	骰子损失 + BCE

表2：实验参数设置。PWD-Net训练与评估的实验参数设置。完整的逐步实施流程请参阅数据准备步骤和协议第5.2节。

方法	骰子 ↑	借据 ↑	准确性 ↑	参数（M） ↓	第一人称 ↑
CBSA	0.8466	0.717	0.9325	18.4	36
FSSA	0.7109	0.551	0.9012	9.8	61
无国界医生	0.7337	0.585	0.9086	11.5	54
风车-变体	0.8007	0.6742	0.9401	7.9	72
Pola线性	0.7213	0.5707	0.9113	6.6	79
PWD-Net（我们的）	0.865	0.7651	0.9478	9.1	63

表3：定量比较结果。 PWD-Net与Kvasir-SEG测试集上五种现有息肉切割方法（100张图像）的定量比较。所有方法均在相同的数据分割、预处理和输入分辨率（352 x 352）下进行评估。↑ 表示越高越好;↓ 表示越低越好。标注为*的方法表示原始发表中引用的结果，而非重新实现的结果。

配置	风车	双重攻击	无国界医生	骰子 ↑	借据 ↑
基线	×	×	×	0.832	0.705
+ 风车	√	×	×	0.848	0.725
+ 双重调度	×	√	×	0.852	0.732
+ MSF	×	×	√	0.844	0.72
+ 风车 + 双重攻击	√	√	×	0.858	0.748
完整版（PWD-Net）	√	√	√	0.865	0.765

表4：消融研究结果。Kvasir-SEG测试集的消融研究结果显示，Pinwheel卷积模块（Pinwheel）、双关注机制（Dual-Attn）和多尺度特征融合（MSF）对基础ResNet-50编码器的增量贡献。

息肉类型	编号	骰子 ↑	借据 ↑
小息肉（< 5%）	21	0.812	0.685
中等息肉（5%–30%）	54	0.882	0.79
大型息肉（> 30%）	25	0.861	0.76

表5：PWD-Net对不同息肉类型的表现。PWD-Net在Kvasir-SEG测试集内不同息肉大小类别的表现（100张图像）。息肉大小由息肉面积与总图像面积的比值定义。

补充档案： 包含PWD-Net框架实现的压缩档案。该文件包含 model.py 定义了通过风车卷积模块（PCM）和双关注机制（DAM）定义网络架构，train.py 实现数据加载流水线、丢失函数和训练过程，test.py 测试数据集的模型推断和评估，并requirements.txt列出所有必需的Python库及其对应版本。请点击这里下载此文件。

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

PWD-Net协议中的若干设计选择对于实现可靠的分段结果至关重要，在实现过程中值得认真关注。首先，编码器骨干的选择和初始化直接影响收敛行为和最终性能。该协议采用ResNet-50编码器，预训练于ImageNet，提供稳健的低层和中层特征初始化。这对于医学图像分割任务尤为重要，因为可用训练数据有限（本研究为800张图像）。微调所有编码层而非冻结，使网络能够将预训练特征适应结肠镜图像的具体特征，如黏膜纹理和镜面反射。其次，每个核心模块在架构中的配置是有意为之。Pinwheel卷积模块（PCM）位于瓶颈处，空间分辨率最低但语义信息最丰富，从而实现高效捕获全球几何图案且不增加计算成本。双重注意机制（DAM）嵌入在跳跃连接处，而非解码器内，确保在特征传输到解码器前抑制背景噪声，防止受污染特征通过融合级传播。消融研究（表4）支持这一设计：DAM贡献最大的单个性能提升（Dice： +2.0%），证实了特征管线早期噪声抑制的重要性。第三，混合损失函数（0.5 ·公元前 + 0.5 ·Dice）在像素级分类精度与区域层级重叠优化之间取得了平衡。这种组合对于珊瑚体分段尤为重要，因为前景与背景类失衡很常见。默认采用等权重（λ = 0.5）;对于具有不同类别分布的数据集，可能需要调整该比例（见下文“故障排除”部分）。

改装与故障排除
以下修改和故障排除指南，用于适应不同实验环境。当将该协议应用于不同图像分辨率或珊瑚体大小分布的数据集时，输入分辨率（352 x 352）可能需要调整。更大的输入大小可能提高小息肉的检测效果，但代价是内存消耗增加和推理速度降低。如果训练损失在50个时代内未收敛，考虑降低初始学习率（例如降至5 x 10⁻⁵）或延长余弦退火周期长度。如果模型在具有严重镜面反射或黏膜褶皱的区域表现出较高的假阳性率，提高骰子损失成分的权重（例如，公元前的λ = 0.4，骰子的0.6）可能会提高边界精度，但牺牲像素级的准确性。相反，如果模型对小息肉的分段不足，增加BCE权重可能有所帮助。PCM中的旋转角度数（目前为8个，从0°到315°，每45°为增量）代表了方向覆盖和计算成本之间的平衡。将视角简化为四个角度（0°、90°、180°、270°）会减少计算量，但可能降低对斜息肉边界的敏感度。DAM信道注意力分支中的约简比r = 16遵循先前挤压与激发网络³²所确立的惯例;较小的比率（例如r = 8）会增加模型容量，但可能导致小数据集的过拟合。对于明显大于Kvasir-SEG的数据集，考虑增加批处理规模并相应训练历元，并监控验证指标以确定合适的停止点。

相对于其他方法的意义
PWD-Net架构通过三个互补模块解决现有方法的具体局限性。与依赖标准方形卷积核的方法相比，PCM通过多角度旋转核提供方向灵敏度，从而更好地适应结直肠息肉不规则和多样的形态。与单维注意力机制（例如挤压与激发网络中的仅通道注意力³³）相比，DAM结合了通道和空间重要性，在复杂的结肠镜环境中提供了更全面的噪声抑制。与基于Transformer的架构如TransUNet³⁴ 和Polyp-PVT³⁵相比，后者提供强大的全局建模但计算成本较高，PWD-Net以相对紧凑的模型规模（910万参数）和实用推理速度（63 FPS）实现了竞争性能，如表3所述。

需要注意的是，本研究（表3）中呈现的比较是在受控条件下进行的，数据拆分、预处理和评估方案完全相同。观察到的性能差异仅限于本研究中使用的Kvasir-SEG测试集（100张图像），可能无法直接推广到其他数据集或临床环境。纳入更多已建立基线（如PraNet³⁶、ResUNet++³⁷）并在标准化多数据集基准下进行更广泛的比较，将进一步强化证据，并计划用于未来工作。近期关于珊瑚体分割的双编码-解码架构^{研究展示了并} 行编码和解码路径的潜力。PWD-Net架构的不同之处在于专注于单一编码器-解码器流水线内的旋转几何建模和双注意力滤波，体现了互补的设计理念。

本研究存在若干重要局限性。首先，关于实验范围，本研究仅报告了Kvasir-SEG数据集的结果，采用800张训练、100张验证和100张测试图像的单一随机分配。测试集规模（100张图像）相对较小，且仅报告一次训练运行，无需重复实验或交叉验证。因此，报告的性能指标可能会因具体数据拆分而产生差异。未来工作应纳入k重交叉验证或多次随机拆分并报告标准差，以提供更稳健的性能估计。其次，PCM通过多角度核旋转和聚合引入额外的计算开销。尽管整体模型依然紧凑（参数910万），但在资源受限的临床环境中部署，可能需要通过知识提取或模型修剪等技术进一步优化。第三，模型仅基于静态图像进行训练和评估，而临床结肠镜则通过实时视频流，息肉的外观、大小和视角在连续帧内动态变化。虽然63帧/秒的推断速度与实时帧率兼容，但仅凭这一指标并不构成临床验证。在对内镜视频数据、读者研究及下游临床终点分析进行前瞻性验证，才能做出任何临床准备声明^39,40,41。当前的工作应被视为方法论贡献，而非临床验证的系统。

第四，人工智能辅助息肉切割的临床翻译路径远超分割准确性。近期综述强调，先进的影像和分析工具必须整合进更广泛的腔内膜内工作流程，包括病灶分类、分期和治疗计划。当前方案专注于二元息肉分段，未涉及^{病理分类（} 如腺瘤性息肉与多增生息肉）或恶性肿瘤风险评估，这些对指导临床决策至关重要。第五，本研究所用数据集主要来自成人结肠镜检查。关于儿童息肉、与炎症性肠病相关的息肉及其他特殊病理类型的数据未提供。该模型在这些人群中的推广性尚未经过验证。第六，虽然提供了消融实验和定性可视化来展示每个模块的功能，但模型的可解释性仍然有限。深度学习模型的决策过程并不完全透明，这可能影响临床医生的信任和采纳。未来的研究可能会采用基于梯度的可视化技术，以提供更直观的模型预测解释⁴³。

尽管存在上述限制，PWD-Net协议提供了一个可重复的息肉切割框架，可能为后续发展奠定基础。潜在方向包括：通过结合时间建模技术，将模型扩展到基于视频的结肠镜分析;增加了端到端分段和病理分型的分类分支;将评估范围扩展到更大、更多样化的多中心数据集;并探索在内光机器人平台中的整合，其中AI辅助图像分析日益被视为关键技术^44,45。该协议附带的补充代码包旨在促进其他研究团队对该方法的复制和适应。

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者没有什么可透露的。

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究由中国国家重点研发项目（项目号2022YFC3500200和2022YFC3500204）资助。

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
亚当·优化者	—	—	包含在PyTorch中
归属仪式	礼仪团队	v1.0+	数据增强库
CUDA 工具包	NVIDIA	v11.3+	GPU 加速
Kvasir-SEG 数据集	SimulaMet	—	https://datasets.simula.no/kvasir-seg/
Matplotlib	Matplotlib 社区	v3.4+	训练曲线的可视化
数字派	NumPy 社区	v1.21+	数值计算
NVIDIA 特斯拉 P100	NVIDIA	P100-PCIE-16GB	GPU 用于训练和推理
OpenCV	OpenCV 社区	v4.5+	图像预处理
蟒蛇	Python 软件基础	v3.8+	编程语言
PyTorch	元平台	v1.12+	深度学习框架
ResNet-50预训练权重	PyTorch模型动物园	—	ImageNet-1K 预训练
Ubuntu	正典	18.04+	操作系统

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

基于风车卷积和双重注意力的息肉分割网络，用于结直肠癌前病变诊断

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles