该协议实现了一个U型深度学习网络,整合了风车卷积、双重注意力和多尺度融合技术,用于切片结直肠息肉。
Method Article
该协议实现了一个U型深度学习网络,整合了风车卷积、双重注意力和多尺度融合技术,用于切片结直肠息肉。
准确分段结直肠息肉对于结直肠癌的早期预防和诊断至关重要。然而,由于息肉在形状、大小和质地上的高度异质性,以及肠道环境的复杂性(如褶皱、镜面反射和粪便残留物),现有方法在边界定位和小息肉检测方面仍面临重大挑战。为解决这些问题,本文提出了基于风车卷积和双重注意力(PWD-Net)的珊瑚体分割网络。所提网络采用U形编码器-解码器架构,使用预训练的ResNet作为编码器,提取多层局部特征。具体来说,在瓶颈层引入了风车卷积模块(PCM),通过多角度旋转卷积核捕捉息肉的全局几何结构和多方向上下文信息。一种整合通道注意力和空间注意力的双注意机制(DAM)旨在适应性地抑制背景噪声并增强珊瑚类区域特征。此外,采用多尺度特征融合(MSF)策略,将深度语义信息与浅边界细节结合,确保分割结果的完整性和精确性。在Kvasir-SEG和CVC-ClinicDB数据集上的实验表明,PWD-Net的平均Dice系数分别为0.865和0.944,IoU得分为0.765和0.892,显著优于现有的先进方法。消融研究验证了每个模块的有效性,跨数据集评估也证实了模型的强大泛化能力。本研究为临床息肉分割提供了高精度且稳健的解决方案,为结直肠癌前病变的早期诊断和计算机辅助干预提供了重要价值。
结直肠癌是全球最常见的恶性肿瘤之一,发病率和死亡率一直都很高。研究表明,大多数结直肠癌由腺瘤性息肉发展,这一过程通常需要10到15年,为早期发现和干预提供了宝贵的时间窗口。腺瘤检测率(ADR)提高1%可降低约3%的结直肠癌风险,显著降低患者死亡率1。结肠镜被视为结直肠癌筛查的黄金标准,能够在检查时直接切除息肉,从而有效降低癌症发生率和死亡率。
然而,传统结肠镜检查很大程度上依赖于内镜医生的经验和技能水平。主观判断、视觉疲劳和分心等因素可能导致20%–30%的漏诊率,直接影响筛查效果2.因此,开发用于结直肠息肉自动分割的计算机辅助检测(CAD)系统对于提升ADR和减少漏诊具有重要意义。近期临床调查进一步凸显了将人工智能融入内窥镜病灶评估工作流程的兴趣,强化了对稳健且可重复的分段方法的需求3.
近年来,深度学习在医学图像分析领域取得了显著进展,尤其是卷积神经网络(CNN),其在图像分割任务中展现出强大的特征提取和表示能力。作为经典的医学图像分割模型,U-Net采用对称编码-解码架构并跳跃连接以实现精确的像素级分割,成为该领域的标杆5。基于U-Net,提出了许多改进的架构以应对复杂的医学图像分割任务。UNet++ 通过引入嵌套和密集跳跃连接,减少了编码器和解码器特征映射之间的语义差距6.ResUNet++集成了残差块、挤压与激发模块、膨胀卷积和注意力机制,在息肉切割7中表现出色。U2-Net采用两层嵌套的U形结构来捕捉多尺度特征信息8。最近,提出了基于双编码-解码器的深度息肉切片网络,利用并行编码和解码路径进一步提升切割准确性9。
与此同时,注意力机制的引入为特征增强和噪声抑制提供了新的解决方案。注意力 U-Net 利用注意力门聚焦目标区域,同时抑制无关背景信息10。双重视网络(DANet)自适应地加权通道维度和空间维度的特征,提升了对关键特征的感知。三重注意力网络(TANet)通过多尺度特征的自适应选择进一步提升了分段性能12.
随着Transformer架构在自然语言处理和计算机视觉13领域的成功,研究人员开始探索其在医学图像分割中的应用。TransUNet是第一个使用变换器作为编码器来模拟远程依赖关系的机构。Swin-UNet采用纯Transformer架构,并通过移位窗口机制实现高效的全球信息聚合15。UTNet提出了一种混合架构,结合了CNN的局部特征提取能力与Transformers16的全局建模能力。
在息肉分割领域,Polyp-PVT利用金字塔视野Transformer捕捉多尺度的全局语义信息17,而多尺度嵌套UNet通过整合Transformers18增强上下文理解。近期研究还探讨了跨域珊瑚体分割的负相关学习策略(19)、Gompertz增强切割增强(20)以及基于注意力的边界指导架构(21)。尽管这些方法在一定程度上提高了分段性能,但息肉分段仍面临若干挑战。首先,水螅体在形态、大小和质地上表现出高度异质性,从小于5毫米的微型水螅体到超过30毫米的大水螅体不等,形状从圆形椭圆形到高度不规则不等。其次,肠道环境复杂多变,黏膜褶皱、镜面反射、粪便残留物和食物残渣会带来严重的背景干扰。第三,许多息肉边界模糊,可能被褶皱部分阻塞,或浸没在肠道液体中,这使得精细定位边界极具挑战性22。
现有方法在应对这些挑战方面仍存在明显局限性。传统CNN在提取局部纹理和边缘特征方面非常有效;然而,固定方形卷积核并不适合捕捉多样的几何形状23,尤其是对于高度不规则的水螅,且无法有效模拟多方向几何特征。基于Transformer的方法可以模拟全局依赖关系,但在捕捉细致的局部细节和边界信息方面效果较差。此外,其高计算复杂性使其不适合实时临床应用24。近期的珊瑚体分割方法如PraNet,利用反向注意力模块细化关键区域25,边界引导级联注意力网络增强边界特征提取26,以及CAFE-Net通过交叉注意机制融合编码器与解码器特征27,在处理小型息肉时仍面临特征表示不足和边界定位不准确的情况28模糊的界限和复杂的背景。此外,大多数方法忽视了几何形态学,未能充分利用多方向上下文信息,导致不规则形态息肉的切片效果不佳。
总之,当前基于卷积网络的方法由于依赖固定的正方形卷积核,无法捕捉多方向几何特征。基于变换器的方法是实现全局建模,但牺牲了局部边界精度,并且计算成本较高。与此同时,现有的注意力增强和多尺度融合策略尚未在专门针对息肉切割的统一框架内得到联合优化29。这些空白促使开发一种同时涵盖几何特征建模、自适应噪声抑制和跨尺度特征整合的方法。
为解决这些问题,该协议提出了基于风车卷积和双重注意力(PWD-Net)的多样分段网络。该网络整合了几何特征建模、多维注意力增强和多尺度特征融合,实现复杂息肉的精确分割。本研究的主要贡献总结如下:风车卷积模块(PCM),灵感来自风车的结构,提出了一种新颖的旋转卷积核设计,通过卷积操作在多角度(0°、45°、90°、135°、180°、225°、270°和315°)捕捉多方向的卷积几何特征。该模块在瓶颈阶段取代了传统的卷积层,使得对多样边缘方向的有效感知成为可能,并显著提升了不规则形状息肉的表现。双重注意机制(DAM)用于处理结肠镜图像中的背景噪声,如褶皱、反射和粪便残留物。设计了一个集成通道注意力和空间注意力的双注意力模块。该模块嵌入跳跃连接中,通过共同识别“重要”(通道维度)和“位置”(空间维度)来增强珊瑚虫区域的特征响应,确保后续融合仅涉及精细特征。多尺度特征融合策略(MSF)通过译码器引入的分层机制,既保留了深层语义信息,也保留了浅层边界细节。通过逐步整合DAM增强编码器功能与上采样解码器功能,该策略有效补偿降采样引起的空间细节损失,实现小息肉的准确检测和边界划定。
本研究仅使用公开可得的匿名结肠镜图像数据集(Kvasir-SEG)。未收集新的人类受试者数据。机构伦理批准和患者知情同意未被要求,这一点在去标识化公开数据集的回顾性分析机构审查政策中得到了确认。
1. 数据准备
2. 整体建筑
注意:请参见图1,了解PWD-Net的宏级编码器-解码器骨干,图2中核心模块在特征流中的集成与交互。整体架构采用U形编码-解码器设计,以处理息肉的尺度变化和结肠镜图像中的背景干扰。
3. 风车卷积模 (图3)

4. 双重视机制(图4)
注意: 双重关注机制(DAM)嵌入每个跳跃连接中,以抑制背景噪声并增强从通道和空间维度的息肉区域特征。


5. 多尺度特征融合
6. 损失函数与训练配置



7. 伪代码
算法1:PWD-网息肉分割
1:输入: 结肠镜图像 I ∈R H×W×3
2:输出: Segmentation mask M ∈ {0,1}(H×W)
3:
4:功能 PCM(X) ▷ 风车卷积模块
5: 定义基核W(3 x 3),角度Θ = {0°, 45°, ..., 315°}
6: 对每个 θ 都 ∈ Θ 做
7: Wθ ← 双线性旋转(W, θ) ▷ 旋转核
8: Yθ ← Conv2d(X, Wθ) ▷ 方向特定特征
9:结束
10: Yout ← ReLU(BN(Conv1 x 1(Concat({Yθ}))))) ▷ 聚合
11:返回Y输出
12:结束函数
13:
14:函数 DAM(F) ▷ 双关注机制
15: Ac ← S形形体(MLP(AvgPool(F))) ▷ 通道注意力 (r=16)
16: As ← S形结肠(Conv7 x 7([平均池(F);MaxPool(F)])) ▷ 空间注意力
17: F' ← F ⊗ (α ·Ac + β ·As) ▷ 与可学习α融合,β (初始值=0.5)
18:回归 F'
19:结束功能
20:
21:功能 PWD-Net(I)
22:编码器: e1,e 2, e3, e4, e5 ← ResNet50_Stages(I) ▷ 5级预训练编码器
23:瓶颈: b ← PCM(e 5) ▷ 在瓶颈处应用 PCM
24:跳过连接: si ← DAM(ei) 对于 i = 1, 2, 3, 4 ▷ 滤波器编码器特性
25:解码器:
26: d4 ← 双人对话(Concat(Up(b),s4))
27: d3 ← 双人对话(Concat(上(d4),s3))
28: d2 ← 双人对话(Concat(上(d3),s2))
29: d1 ← 双重对话(Concat(上(d2),s1))
30: M ← 乙状结肠(Conv1 x 1(d1))
31:回归 M
32:终结函数
33:
34:训练:
35:每个纪元
36: M̂ ← PWD-Net(I)
37: L ← 0.5 ·BCE(M̂, Mgt) + 0.5 ·DiceLoss(M̂, Mgt) ▷ λ = 0.5
38: 通过反向传播更新参数(Adam optimizer)
39:结束
实验装置
数据集
Kvasir SEG数据集用于评估患有异质性息肉的结肠镜图像中PWD Net的分割行为。该数据集包含1000个像素注释的珊瑚体图像,涵盖珊瑚体大小、形状、纹理、光照和背景复杂度的变异,适合评估小靶检测、边界定位及视觉干扰的韧性。数据集被划分为训练、验证和测试子集,最终测试集仅用于性能评估。图像分布总结见 表1。
实现细节
实现可重复性的设置总结于 表2, 完整的程序细节则在数据准备步骤和协议第5.2节中提供。在解释结果时,所有报告的实验都使用了材料表中列出的相同输入分辨率、硬件环境和评估条件 。 报告的数值基于单次运行中选定的验证骰检查点,使用种子=42,因此结果应被解释为固定实验分割下的性能,而非平均交叉验证结果。
评估指标
分割性能通过Dice系数、交集除并、像素级精度和推理速度进行评估。Dice系数和交叉点与联合交叉作为主要的重叠指标,因为它们直接反映了预测面罩与专家注释的息肉区域之间的一致性。像素级准确率作为补充测量报告,因为结肠镜图像通常包含较大的背景区域。推理速度(以每秒帧数报告)被纳入,以评估模型在提升分割质量的同时,是否保持了实际的计算效率。
与现有方法的比较
为验证PWD-Net的行为和有效性,进行了五种代表性的息肉分割方法的比较:CBSA(通道增强空间注意力网络)34、FSSA(特征共享空间注意力网络)、MSF(多尺度融合网络)、Pinwheel-Conv(无注意力或融合模块的风车卷积基线)和PolaLinear(极化线性注意力网络)。所有比较方法均使用其官方发布的源代码重新实现,并在相同的Kvasir-SEG训练集(800张图像)上进行训练,采用相同的预处理、输入分辨率(352 x 352)和评估设置,以确保公平的比较。 表3 展示了测试集的定量结果。
如 表3所示,PWD-Net的骰子系数为0.865,借款为0.765,比次优方法(CBSA)相比,骰子提升了1.8%,借信提升了4.8%。值得注意的是,PWD-Net的参数为910万,而CBSA为1840万,显示出良好的效率。虽然PolaLinear和Pinwheel-Conv分别提供更快的推断速度(79和72 FPS),但它们的分割精度明显较低,表明PWD-Net在评估数据集的准确性和计算成本之间提供了合理的平衡。为说明定性分割行为,选取五个代表性样本,涵盖小息肉、大息肉、复杂背景和模糊边界进行视觉比较。 图5 展示了四种选定比较方法(CBSA、FSSA、MSF和PWD-Net)的分割结果及实际数据。每个预测列都标注了对应的方法名称。为了视觉清晰,Pinwheel-Conv和PolaLinear未包含在图中,因为它们的定量性能明显较低;因此,该图代表了 表3中比较方法的一个精选子集。
如 图5所示,在小息肉场景(第一和第五行)中,FSSA和MSF会漏检,而PWD-Net则更完整地捕获目标。在大息肉场景(第二和第三排)中,CBSA和FSSA会产生明显的边界不规则,而PWD-Net则生成更平滑的边界。在模糊边界场景(第四行),PWD-Net展示了通过双注意力机制有效抑制背景噪声。
消融研究
为分析每个核心组成部分在PWD-Net中的贡献,进行了系统消融研究。以ResNet-50为骨干编码器,逐步整合了风车卷积模块(Pinwheel)、双注意力机制(Dual-Attn)和多尺度特征融合(MSF)模块。 表4 总结了这些定量结果。
表4中的关键发现可以总结如下。首先,添加任意单一模块可以提升基线模型的性能。双注意力机制带来了最显著的提升(骰子:+2.0%,IoU:+2.7%),支持自适应噪声抑制的有效性。Pinwheel卷积模块在Dice中贡献了1.6%的改进,表明多方向特征提取对不规则水螅形状的益处。其次,将风车卷积和双注意力机制结合,进一步提升了性能,使骰子 = 0.858 和 IoU = 0.748 显示两者模块互补。最后,完整的PWD-Net(整合所有三个模块)实现了最佳观察表现(Dice = 0.865,IoU = 0.765),分别比基线提升3.3%和6.0%,展示了每个拟议组件对该数据集的贡献。
训练过程分析
为了说明PWD-Net的训练动态和融合特性,记录并可视化了50个训练时期的关键绩效指标。 图6 展示了训练过程中损失函数、骰子系数、IoU和精度的变化。
如 图6(a )所示,训练损失和验证损失在前10个时代内迅速下降,随后逐渐稳定。验证损失始终略高于训练损失,但两条曲线沿用较小间隙的一致趋势,表明模型未出现严重的过度拟合。 图6(b) 显示,骰子系数在早期训练阶段急剧上升,约在第30纪元后收敛,并稳定在0.86以上。 图6(c )中的IoU曲线也呈现出类似的增长趋势,在训练后期达到约0.765。 图6(d) 显示准确率收敛率超过94%。中后期训练阶段的稳定验证趋势表明,采用的数据增强策略和余弦退火计划有助于减轻该数据集的过拟合。
不同水螅大小的表现
为进一步评估PWD-Net在不同临床情境中的适用性,测试集(100张图像)根据息肉面积与影像面积的比例分为三类:小息肉(<5%)、中等息肉(5%–30%)和大型息肉(>30%)。该分类反映了珊瑚体鳞片对分段难度的影响。 表5 展示了各类别的定量表现。如 表5所示,PWD-Net在中等珊瑚虫类别中表现最佳(骰子=0.882,IoU=0.790),这与该类别的更大代表性(100张测试图像中有54张)相符。对大型息肉的表现保持在相当水平(骰子 = 0.861,IoU = 0.760)。小珊瑚虫的性能相对较低(Dice = 0.812,IoU = 0.685),主要因为小靶只占图像较小比例,且边界信息较稀疏时更容易受到背景噪声影响。
这些结果表明,Pinwheel卷积模块的多向特征捕获能力和双关注机制的空间定位能力,有助于在评估测试集中维持不同息肉尺度上的合理分割质量。

图1:PWD-Net模型框架。 基于风车卷积与双重注意力(PWD-Net)所提出息肉分割网络的整体结构框架,展示了编码器(ResNet-50)、瓶颈(PCM)、DAM增强跳接连接、MSF解码器及结直肠息肉切割的输出生成。 请点击此处查看该图的放大版本。

图2:PWD-Net的整体架构流程图。 完整PWD-Net架构的详细流程图,展示了五级ResNet-50编码器、PCM瓶颈、DAM跳跃连接、多尺度特征融合解码器及最终预测生成。 请点击此处查看该图的放大版本。

图3:Pinwheel卷积模的示意图。 Pinwheel卷积模块的结构与操作示意图,演示多角度旋转卷积核、基于双线性插值的旋转、通道连接以及1×1卷积聚合。 请点击此处查看该图的放大版本。

图4:双重视机制结构图。 DAM的架构图,展示了并行通道注意力分支(MLP→全局平均池化,缩减比r = 16 → S形形)和空间注意力分支(通道层池→7 x 7卷积→S形形),随后是可学习系数为α和β的加权融合。 请点击此处查看该图的放大版本。

图5:分割结果的定性比较。 每一行代表一个测试样本。从左到右的列:输入图像、Ground Truth、CBSA、FSSA、MSF 和 PWD-Net(我们的)。为了视觉清晰起见,Pinwheel-Conv和PolaLinear未包含;完整的定量比较见 表3 。 请点击此处查看该图的放大版本。

图6:PWD-Net在50个时代的训练曲线。 (a) 训练和验证损失。(b) 骰子系数。(c) 联合交叉口(借款)。(d) 像素级精度。 请点击此处查看该图的放大版本。
| 训练子集 | 采样数量 | 比例 |
| 火车模型 | 800 | 80% |
| 验证集 | 100 | 10% |
| 测试集 | 100 | 10% |
| 全套 | 1000 | 100% |
表1:数据集统计数据。Kvasir-SEG数据集的分组分布(共1,000张图片),显示训练、验证和测试子集的图像数量及比例(随机种子=42)。
| 类别 | 参数项 | 参数设置 |
| 深度学习框架 | 框架 | PyTorch |
| 硬件环境 | GPU | NVIDIA 特斯拉 P100 |
| 加速度法 | GPU 加速 | CUDA |
| 输入设置 | 输入图像尺寸 | 352×352 |
| 图像格式 | 图像格式 | RGB图像 |
| 优化器 | 优化器 | 亚当 |
| 初始学习率 | 初始LR | 1 × 10⁻4 |
| 批次大小 | 批次大小 | 16 |
| 训练时期 | 时代 | 50 |
| 损失函数 | 损失函数 | 骰子损失 + BCE |
表2:实验参数设置。PWD-Net训练与评估的实验参数设置。完整的逐步实施流程请参阅数据准备步骤和协议第5.2节。
| 方法 | 骰子 ↑ | 借据 ↑ | 准确性 ↑ | 参数 (M) ↓ | 第一人称 ↑ |
| CBSA | 0.8466 | 0.717 | 0.9325 | 18.4 | 36 |
| FSSA | 0.7109 | 0.551 | 0.9012 | 9.8 | 61 |
| 无国界医生 | 0.7337 | 0.585 | 0.9086 | 11.5 | 54 |
| 风车-变体 | 0.8007 | 0.6742 | 0.9401 | 7.9 | 72 |
| Pola线性 | 0.7213 | 0.5707 | 0.9113 | 6.6 | 79 |
| PWD-Net(我们的) | 0.865 | 0.7651 | 0.9478 | 9.1 | 63 |
表3:定量比较结果。 PWD-Net与Kvasir-SEG测试集上五种现有息肉切割方法(100张图像)的定量比较。所有方法均在相同的数据分割、预处理和输入分辨率(352 x 352)下进行评估。↑ 表示越高越好;↓ 表示越低越好。标注为*的方法表示原始发表中引用的结果,而非重新实现的结果。
| 配置 | 风车 | 双重攻击 | 无国界医生 | 骰子 ↑ | 借据 ↑ |
| 基线 | × | × | × | 0.832 | 0.705 |
| + 风车 | √ | × | × | 0.848 | 0.725 |
| + 双重调度 | × | √ | × | 0.852 | 0.732 |
| + MSF | × | × | √ | 0.844 | 0.72 |
| + 风车 + 双重攻击 | √ | √ | × | 0.858 | 0.748 |
| 完整版(PWD-Net) | √ | √ | √ | 0.865 | 0.765 |
表4:消融研究结果。Kvasir-SEG测试集的消融研究结果显示,Pinwheel卷积模块(Pinwheel)、双关注机制(Dual-Attn)和多尺度特征融合(MSF)对基础ResNet-50编码器的增量贡献。
| 息肉类型 | 编号 | 骰子 ↑ | 借据 ↑ |
| 小息肉(< 5%) | 21 | 0.812 | 0.685 |
| 中等息肉(5%–30%) | 54 | 0.882 | 0.79 |
| 大型息肉(> 30%) | 25 | 0.861 | 0.76 |
表5:PWD-Net对不同息肉类型的表现。PWD-Net在Kvasir-SEG测试集内不同息肉大小类别的表现(100张图像)。息肉大小由息肉面积与总图像面积的比值定义。
补充档案: 包含PWD-Net框架实现的压缩档案。该文件包含 model.py 定义了通过风车卷积模块(PCM)和双关注机制(DAM)定义网络架构,train.py 实现数据加载流水线、丢失函数和训练过程,test.py 测试数据集的模型推断和评估,并requirements.txt列出所有必需的Python库及其对应版本。请点击这里下载此文件。
PWD-Net协议中的若干设计选择对于实现可靠的分段结果至关重要,在实现过程中值得认真关注。首先,编码器骨干的选择和初始化直接影响收敛行为和最终性能。该协议采用ResNet-50编码器,预训练于ImageNet,提供稳健的低层和中层特征初始化。这对于医学图像分割任务尤为重要,因为可用训练数据有限(本研究为800张图像)。微调所有编码层而非冻结,使网络能够将预训练特征适应结肠镜图像的具体特征,如黏膜纹理和镜面反射。其次,每个核心模块在架构中的配置是有意为之。Pinwheel卷积模块(PCM)位于瓶颈处,空间分辨率最低但语义信息最丰富,从而实现高效捕获全球几何图案且不增加计算成本。双重注意机制(DAM)嵌入在跳跃连接处,而非解码器内,确保在特征传输到解码器前抑制背景噪声,防止受污染特征通过融合级传播。消融研究(表4)支持这一设计:DAM贡献最大的单个性能提升(Dice: +2.0%),证实了特征管线早期噪声抑制的重要性。第三,混合损失函数(0.5 ·公元前 + 0.5 ·Dice)在像素级分类精度与区域层级重叠优化之间取得了平衡。这种组合对于珊瑚体分段尤为重要,因为前景与背景类失衡很常见。默认采用等权重(λ = 0.5);对于具有不同类别分布的数据集,可能需要调整该比例(见下文“故障排除”部分)。
改装与故障排除
以下修改和故障排除指南,用于适应不同实验环境。当将该协议应用于不同图像分辨率或珊瑚体大小分布的数据集时,输入分辨率(352 x 352)可能需要调整。更大的输入大小可能提高小息肉的检测效果,但代价是内存消耗增加和推理速度降低。如果训练损失在50个时代内未收敛,考虑降低初始学习率(例如降至5 x 10⁻5)或延长余弦退火周期长度。如果模型在具有严重镜面反射或黏膜褶皱的区域表现出较高的假阳性率,提高骰子损失成分的权重(例如,公元前的λ = 0.4,骰子的0.6)可能会提高边界精度,但牺牲像素级的准确性。相反,如果模型对小息肉的分段不足,增加BCE权重可能有所帮助。PCM中的旋转角度数(目前为8个,从0°到315°,每45°为增量)代表了方向覆盖和计算成本之间的平衡。将视角简化为四个角度(0°、90°、180°、270°)会减少计算量,但可能降低对斜息肉边界的敏感度。DAM信道注意力分支中的约简比r = 16遵循先前挤压与激发网络32所确立的惯例;较小的比率(例如r = 8)会增加模型容量,但可能导致小数据集的过拟合。对于明显大于Kvasir-SEG的数据集,考虑增加批处理规模并相应训练历元,并监控验证指标以确定合适的停止点。
相对于其他方法的意义
PWD-Net架构通过三个互补模块解决现有方法的具体局限性。与依赖标准方形卷积核的方法相比,PCM通过多角度旋转核提供方向灵敏度,从而更好地适应结直肠息肉不规则和多样的形态。与单维注意力机制(例如挤压与激发网络中的仅通道注意力33)相比,DAM结合了通道和空间重要性,在复杂的结肠镜环境中提供了更全面的噪声抑制。与基于Transformer的架构如TransUNet34 和Polyp-PVT35相比,后者提供强大的全局建模但计算成本较高,PWD-Net以相对紧凑的模型规模(910万参数)和实用推理速度(63 FPS)实现了竞争性能,如 表3所述。
需要注意的是,本研究(表3)中呈现的比较是在受控条件下进行的,数据拆分、预处理和评估方案完全相同。观察到的性能差异仅限于本研究中使用的Kvasir-SEG测试集(100张图像),可能无法直接推广到其他数据集或临床环境。纳入更多已建立基线(如PraNet36、ResUNet++37)并在标准化多数据集基准下进行更广泛的比较,将进一步强化证据,并计划用于未来工作。近期关于珊瑚体分割的双编码-解码架构研究展示了并 行编码和解码路径的潜力。PWD-Net架构的不同之处在于专注于单一编码器-解码器流水线内的旋转几何建模和双注意力滤波,体现了互补的设计理念。
本研究存在若干重要局限性。首先,关于实验范围,本研究仅报告了Kvasir-SEG数据集的结果,采用800张训练、100张验证和100张测试图像的单一随机分配。测试集规模(100张图像)相对较小,且仅报告一次训练运行,无需重复实验或交叉验证。因此,报告的性能指标可能会因具体数据拆分而产生差异。未来工作应纳入k重交叉验证或多次随机拆分并报告标准差,以提供更稳健的性能估计。其次,PCM通过多角度核旋转和聚合引入额外的计算开销。尽管整体模型依然紧凑(参数910万),但在资源受限的临床环境中部署,可能需要通过知识提取或模型修剪等技术进一步优化。第三,模型仅基于静态图像进行训练和评估,而临床结肠镜则通过实时视频流,息肉的外观、大小和视角在连续帧内动态变化。虽然63帧/秒的推断速度与实时帧率兼容,但仅凭这一指标并不构成临床验证。在对内镜视频数据、读者研究及下游临床终点分析进行前瞻性验证,才能做出任何临床准备声明39,40,41。当前的工作应被视为方法论贡献,而非临床验证的系统。
第四,人工智能辅助息肉切割的临床翻译路径远超分割准确性。近期综述强调,先进的影像和分析工具必须整合进更广泛的腔内膜内工作流程,包括病灶分类、分期和治疗计划。当前方案专注于二元息肉分段,未涉及病理分类( 如腺瘤性息肉与多增生息肉)或恶性肿瘤风险评估,这些对指导临床决策至关重要。第五,本研究所用数据集主要来自成人结肠镜检查。关于儿童息肉、与炎症性肠病相关的息肉及其他特殊病理类型的数据未提供。该模型在这些人群中的推广性尚未经过验证。第六,虽然提供了消融实验和定性可视化来展示每个模块的功能,但模型的可解释性仍然有限。深度学习模型的决策过程并不完全透明,这可能影响临床医生的信任和采纳。未来的研究可能会采用基于梯度的可视化技术,以提供更直观的模型预测解释43。
尽管存在上述限制,PWD-Net协议提供了一个可重复的息肉切割框架,可能为后续发展奠定基础。潜在方向包括:通过结合时间建模技术,将模型扩展到基于视频的结肠镜分析;增加了端到端分段和病理分型的分类分支;将评估范围扩展到更大、更多样化的多中心数据集;并探索在内光机器人平台中的整合,其中AI辅助图像分析日益被视为关键技术44,45。该协议附带的补充代码包旨在促进其他研究团队对该方法的复制和适应。
作者没有什么可透露的。
本研究由中国国家重点研发项目(项目号2022YFC3500200和2022YFC3500204)资助。
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| 亚当·优化者 | — | — | 包含在PyTorch中 |
| 归属仪式 | 礼仪团队 | v1.0+ | 数据增强库 |
| CUDA 工具包 | NVIDIA | v11.3+ | GPU 加速 |
| Kvasir-SEG 数据集 | SimulaMet | — | https://datasets.simula.no/kvasir-seg/ |
| Matplotlib | Matplotlib 社区 | v3.4+ | 训练曲线的可视化 |
| 数字派 | NumPy 社区 | v1.21+ | 数值计算 |
| NVIDIA 特斯拉 P100 | NVIDIA | P100-PCIE-16GB | GPU 用于训练和推理 |
| OpenCV | OpenCV 社区 | v4.5+ | 图像预处理 |
| 蟒蛇 | Python 软件基础 | v3.8+ | 编程语言 |
| PyTorch | 元平台 | v1.12+ | 深度学习框架 |
| ResNet-50预训练权重 | PyTorch模型动物园 | — | ImageNet-1K 预训练 |
| Ubuntu | 正典 | 18.04+ | 操作系统 |
Request permission to reuse the text or figures of this JoVE article
Request Permission