このプロトコルは、ピンホイール畳み込み、デュアルアテンション、多スケール融合を統合したU字型ディープラーニングネットワークを実装し、大腸ポリープをセグメント化します。
Method Article
このプロトコルは、ピンホイール畳み込み、デュアルアテンション、多スケール融合を統合したU字型ディープラーニングネットワークを実装し、大腸ポリープをセグメント化します。
大腸ポリープの正確なセグメンテーションは、大腸がんの早期予防と診断に不可欠です。しかし、ポリープの形状、大きさ、質感が非常に異質であり、腸内環境(ひだ、鏡面反射、糞便残渣など)も複雑であるため、既存の方法は境界の定位や小ポリープ検出において依然として大きな課題に直面しています。これらの課題に対処するため、本論文はピンホイール畳み込みとデュアルアテンション(PWD-Net)に基づくポリップ分割ネットワークを提案します。提案されたネットワークはU字型のエンコーダ–デコーダアーキテクチャを採用しており、事前学習済みのResNetをエンコーダとして用いて多層局所特徴を抽出します。具体的には、ピンホイール畳み込みモジュール(PCM)をボトルネック層に導入し、多角度回転畳み込みカーネルを通じてポリプのグローバルな幾何学的構造と多方向の文脈情報を捉えます。チャネル注意と空間注意を統合するデュアルアテンションメカニズム(DAM)は、背景雑音を適応的に抑制し、ポリープ領域の特徴を強化することを目的としています。さらに、マルチスケール特徴融合(MSF)戦略を用いて、深い意味情報と浅い境界の詳細を組み合わせ、セグメンテーション結果の完全性と精度の両方を確保しています。Kvasir-SEGおよびCVC-ClinicDBデータセットで行われた実験では、PWD-Netはそれぞれ平均Dice係数0.865と0.944、IoUスコア0.765と0.892を達成し、既存の最先端手法を大きく上回っています。アブレーション研究は各モジュールの有効性を検証し、データセット横断評価によりモデルの強力な一般化能力が確認されます。本研究は、臨床ポリープの分割に関する高精度かつ堅牢なソリューションを提供し、大腸前がん病変の早期診断に大きな価値を提供し、コンピュータ支援介入を支援します。
大腸がんは世界的に最も一般的な悪性腫瘍の一つであり、発生率と死亡率は常に高いです。研究によれば、ほとんどの大腸がんは腺腫性ポリープから発症することが示されており、この過程は通常10〜15年かかるため、早期発見や介入のための貴重な時間軸となっています。腺腫検出率(ADR)を1%増加させることで、大腸がんのリスクを約3%減少させ、患者の死亡率を有意に低下させることができます。大腸内視鏡検査は大腸がん検診のゴールドスタンダードとされており、検査中にポリープを直接除去できるため、がんの発生率と死亡率を効果的に減少させます。
しかし、従来の大腸内視鏡検査は内視鏡医の経験と技術レベルに大きく依存します。主観的判断、視覚疲労、注意散漫などの要因により、20%〜30%の誤入率が生じ、スクリーニングの効果に直接影響します。したがって、大腸ポリープの自動分割のためのコンピュータ支援検出(CAD)システムの開発は、ADRの改善と診断見落としの減少に非常に重要です。最近の臨床調査では、人工知能を内視鏡病変評価ワークフローに統合する関心がさらに浮き彫りになり、堅牢で再現性の高いセグメンテーション手法の必要性が強調されています3.
近年、ディープラーニングは医療画像解析、特に畳み込みニューラルネットワーク(CNN)において顕著な進歩を遂げており、画像セグメンテーションタスクにおける特徴抽出と表現に強い能力を示しています。古典的な医療画像セグメンテーションモデルとして、U-Netは対称エンコーダ–デコーダアーキテクチャを採用し、接続をスキップして正確なピクセルレベルのセグメンテーションを実現しており、この分野のベンチマークとなっています5。U-Netを基に、複雑な医療画像セグメンテーションタスクに対応するために多くの改良アーキテクチャが提案されています。UNet++は、ネストされたスキップ接続と密集したスキップ接続を導入することで、エンコーダとデコーダの特徴マップ間の意味的なギャップを減らします。ResUNet++は残留ブロック、圧縮・励起モジュール、拡張畳み込み、注意メカニズムを統合し、ポリップ分割7で高い性能を達成しています。U2-Netは、マルチスケールの特徴情報を捉えるために2層の入れ子状U字型構造を採用しています8。最近では、並列符号化と復号経路を活用して分割精度をさらに向上させる二重エンコーダー・デコーダベースの深層ポリープ分割ネットワークが提案されています。
一方で、注意機構の導入により、特徴の強化やノイズ抑制の新たな解決策が生まれます。注意 U-Netは注意ゲートを用いてターゲット領域に集中しつつ、無関係な背景情報を抑制します。デュアルアテンションネットワーク(DANet)はチャネル次元と空間次元の両方から特徴を適応的に重み付けし、重要な特徴の知覚を向上させます。トリプルアテンションネットワーク(TANet)は、マルチスケール特徴の適応選択を通じてセグメンテーション性能をさらに向上させます12。
自然言語処理やコンピュータビジョン13におけるトランスフォーマーアーキテクチャの成功を受けて、研究者たちは医療画像セグメンテーションへの応用を探り始めています。TransUNetは、長距離依存関係を実質的にモデル化するためにトランスフォーマーをエンコーダとして初めて使用した企業です。Swin-UNetは純粋なトランスフォーマーアーキテクチャを採用し、シフトウィンドウメカニズム15を通じて効率的なグローバル情報集約を実現します。UTNetはCNNの局所的特徴抽出能力とTransformers16のグローバルモデリング能力を組み合わせたハイブリッドアーキテクチャを提案しています。
ポリップセグメンテーションの分野では、Polyp-PVTはピラミッドビジョンのTransformerを用いて多スケールのグローバルセマンティック情報を捉え、マルチスケールのネストUNetはTransformers18を統合することで文脈理解を強化します。最近の研究では、クロスドメインポリプセグメンテーション19、ゴンパーツ拡張セグメンテーション強化20、境界ガイダンスを取り入れた注意ベースのアーキテクチャ21における負の相関学習戦略も探求されています。これらの手法はある程度セグメンテーションの性能を向上させますが、ポリプセグメンテーションには依然としていくつかの課題があります。まず、ポリプは形態、大きさ、質感において非常に異質で、5mm未満の微小ポリプから30mmを超える大きなポリプまで幅広く、形状は円形や楕円形から非常に不規則な形状まで様々です。第二に、腸環境は複雑かつ多様であり、粘膜ひだ、鏡面反射、便残留物、食物残渣などが深刻な背景干渉をもたらします。第三に、多くのポリープは境界がぼやけたり、ひだで部分的に塞がれたり、腸液に浸かっていることがあり、正確な境界の特定は非常に困難です。
既存の手法はこれらの課題に対処する上で依然として明確な限界を抱えています。従来のCNNは局所的なテクスチャやエッジの特徴を抽出するのに効果的です。しかし、固定された正方形畳み込みカーネルは、特に高度に不規則なポリプに対して多様な幾何学的形状23の捕捉には適しておらず、多方向の幾何学的特徴を効果的にモデル化することはできません。トランスフォーマーベースの手法はグローバル依存関係をモデル化できますが、細かい局所的詳細や境界情報の取得には効果が劣ります。さらに、計算の複雑さが高いため、リアルタイムの臨床応用にはあまり適していません。最近のポリップセグメンテーション手法であるPraNet(リバースアテンションモジュールを用いて重要な領域を精細化)、境界指向カスケード注意ネットワーク(境界特徴抽出を強化する)26、エンコーダーとデコーダの特徴をクロスアテンション機構で融合させるCAFE-Net(27)などは、小さなポリプを扱う際に特徴表現が不十分で境界局在の精度が低い28の課題に直面しています、曖昧な境界線、複雑な背景。さらに、多くの手法は幾何学的形態を無視し、多方向の文脈情報を十分に活用できず、不規則な形状のポリープの最適でない分割を生み出しています。
まとめると、現在のCNNベースの手法は固定された正方形畳み込みカーネルに依存しているため、多方向幾何学的特徴を捉える能力が不足しています。トランスを基盤としたアプローチはグローバルモデリングを提供しますが、局所境界の精度を犠牲にし、計算コストも高くなります。一方で、既存の注意強化型およびマルチスケール融合戦略は、ポリップセグメンテーションに特化した統一フレームワークの中で共同で最適化されていません。これらのギャップが、幾何学的特徴モデリング、適応ノイズ抑制、スケール横断特徴統合を同時に扱う手法の開発を促しています。
これらの問題に対処するため、本プロトコルはピンホイール畳み込みとデュアルアテンション(PWD-Net)に基づくポリップセグメンテーションネットワークを提示します。提案されたネットワークは幾何学的特徴モデリング、多次元注意強化、多スケールの特徴融合を統合し、複雑なポリプの正確なセグメンテーションを可能にします。この研究の主な貢献は以下の通りです:ピンホイール畳み込みモジュール(PCM)は、ピンホイールの構造に着想を得て、0°、45°、90°、135°、180°、225°、270°、315°の複数の角度での畳み込み操作を通じてポリプの多方向幾何学的特徴を捉える新しい回転畳み込みカーネル設計を提案します。このモジュールはボトルネック段階で従来の畳み込み層に代わり、多様なエッジの向きを効果的に認識し、不規則な形状のポリプの表現を大幅に向上させます。二重注意機構(DAM)は、大腸内視鏡画像における褶曲、反射、便残留物などの背景ノイズに対応します。チャネル注意と空間注意を統合した二重注意モジュールが設計されています。スキップ接続に組み込まれたこのモジュールは、背景干渉を適応的に抑制し、ポリップ領域における特徴応答を強化します。これは「重要なもの」(チャネル寸法)と「どこ」の標的であるか(空間次元)を共同で識別することで、後の融合には精細化された特徴のみが関与するようにします。マルチスケール特徴融合戦略(MSF)は、デコーダで導入された階層的なメカニズムを通じて、深い意味情報と浅い境界の詳細の両方を保持します。DAM強化エンコーダの特徴をアップサンプリングされたデコーダ機能と段階的に統合することで、ダウンサンプリングによる空間的ディテール損失を効果的に補正し、小さなポリープの正確な検出や境界の正確な区分を可能にします。
本研究は公開されている匿名化された大腸内視鏡画像データセット(Kvasir-SEG)のみを使用しています。新たなヒト被験者データは収集されませんでした。非特定化された公開データセットの遡及的分析に関する機関審査方針によって確認されているように、機関倫理承認および患者インフォームド同意は必要ありませんでした。
1. データ準備
2. 全体的なアーキテクチャ
注:PWD-Netのマクロレベルのエンコーダ–デコーダバックボーンについては図1、フィーチャーフロー内のコアモジュールの統合と相互作用については図2を参照してください。全体のアーキテクチャは、ポリープのスケール変化や大腸内視鏡画像における背景干渉に対応するため、U字型のエンコーダー・デコーダ設計に従っています。
3. ピンホイール畳み込み加群 (図3)

4. 二重注意メカニズム(図4)
注: デュアルアテンション機構(DAM)は各スキップ接続に組み込まれ、背景雑音を抑制し、チャネル次元および空間次元の両方からポリープ領域の特徴を強化します。


5. マルチスケール特徴融合
6. 損失関数と訓練構成



7. 擬似コード
アルゴリズム1:PWD-Netポリープ分割
1: 入力: 大腸内視鏡画像 I∈ R H×W×3
2: 出力: セグメンテーションマスク M ∈ {0,1}(H×W)
3:
4: 関数 PCM(X) ▷ ピンホイール畳み込み加群
5: 基底核W(3×3)を定義し、角度Θ = {0°, 45°, ..., 315°}
6: θ ∈ Θ に対して
7: Wθ ← BilinearRotate(W, θ) ▷ 核を回転させる
8: Yθ ← Conv2d(X, Wθ) ▷ 方向特異的特徴
9: 終了
10: Yout ← ReLU(BN(Conv1 x 1(Concat({Yθ})))) ▷ 集計
11: Yを戻す
12: 終了関数
13:
14: 関数 DAM(F) ▷ デュアルアテンション機構
15: Ac ← Sigmoid(MLP(AvgPool(F))) ▷ チャネル注意 (r=16)
16: As ← シグモイド(Conv7 x 7([平均プール(F);MaxPool(F)])) ▷ 空間注意
17: F' ← F ⊗(α ·Ac + β ·As) ▷ 学習可能なαと融合β (init=0.5)
18:帰還 F'
19: 終わり関数
20:
21: 関数 PWD-Net(I)
22: エンコーダ: e1,e 2, e3, e4, e5 ← ResNet50_Stages(I) ▷ 5段階の事前学習済みエンコーダ
23: ボトルネック: b ← PCM(e5) ▷ ボトルネックにPCMを適用
24: 接続スキップ: si ← DAM(ei) に対して i = 1, 2, 3, 4 ▷ フィルターエンコーダ機能
25: デコーダー:
26: d4 ← ダブルコンバージョン(Concat(Up(b), s4))
27: d3 ← ダブルコンヴ(Concat(Up(d4)、s3))
28: d2 ← ダブルコンヴ(Concat(Up(d3)、s2))
29: d1 ← ダブルコンヴ(Concat(Up(d2), s1))
30: M ← シグモイド(Conv1 x 1(d1))
31:帰還 M
32: 終末関数
33:
34:トレーニング:
35: 各時代 ごとに
36: M̂ ← PWD-Net(I)
37: L ← 0.5 ·BCE(M̂, Mgt) + 0.5 ·DiceLoss(M̂, Mgt) ▷ λ = 0.5
38: パラメータを逆伝播で更新(Adam optimizer)
39:終わり
実験装置
データセット
Kvasir SEGデータセットは、異質なポリープの外観を持つ大腸内視鏡画像におけるPWD Netのセグメンテーション挙動を評価するために用いられました。このデータセットには1,000ピクセルの注釈付きポリプ画像が含まれており、ポリップのサイズ、形状、質感、照明、背景の複雑さに変化があるため、小さなターゲット検出、境界の定位、視覚干渉に対する強靭性の評価に適しています。データセットはトレーニング、検証、テストのサブセットに分けられ、最終的なテストセットはパフォーマンス評価のみに使用されました。画像の分布は表1にまとめられています。
実装の詳細
再現性に必要な実装設定は 表2 にまとめられており、完全な手続きの詳細はプロトコルのデータ準備ステップおよびセクション5.2に記載されています。結果の解釈にあたり、報告されたすべての実験は材料表に記載された同じ入力解像度、ハードウェア環境、評価条件を用いていました 。 報告値はシード=42を用いた単一の実行で選択された検証ダイスチェックポイントに基づいているため、結果は平均化されたクロスバリデーション結果ではなく、固定された実験分割下のパフォーマンスとして解釈されるべきです。
評価指標
セグメンテーション性能は、ダイス係数、和節の交差、ピクセルレベルの精度、推論速度を用いて評価されました。ダイス係数と交差点(Intersection over Union)は、予測されたマスクと専門家による注釈付きポリープ領域の一致を直接反映するため、主要な重なりに基づく指標として用いられました。大腸内視鏡画像には大きな背景領域が含まれていることが多いため、ピクセル単位の精度は補助的な指標として報告されました。推論速度はフレーム毎秒で報告され、モデルが実用的な計算効率を維持しつつセグメンテーションの品質を向上させるかどうかを評価するために含まれました。
既存手法との比較
PWD-Netの挙動と有効性を示すために、5つの代表的なポリープ分割手法を比較します:CBSA(チャネル強化空間注意ネットワーク)34、FSSA(特徴共有空間注意ネットワーク)、MSF(マルチスケール融合ネットワーク)、Pinwheel-Conv(注意や融合モジュールなしのピンホイール畳み込みベースライン)、およびPolaLinear(偏光線形注意ネットワーク)。すべての比較手法は公式に公開されたソースコードを使用して再実装され、同じKvasir-SEGトレーニングセット(800画像)上で同一の前処理、入力解像度(352×352)、評価設定のもとで訓練され、公正な比較が確保されています。 表3は テストセットの定量的結果を示しています。
表3に示されているように、PWD-NetはDice係数0.865、IoUは0.765であり、次善法(CBSA)と比較してDiceで1.8%、IoUが4.8%の改善を示しています。特にPWD-Netは910万のパラメータでこれを達成しており、CBSAの1840万と比べて良好な効率を示しています。PolaLinearとPinwheel-Convはそれぞれ79FPSと72FPSとより高速な推論速度を提供しますが、セグメンテーション精度は明らかに低く、PWD-Netは評価データセットにおいて精度と計算コストのバランスが妥当であることを示唆しています。定性的セグメンテーションの挙動を示すために、小さなポリープ、大きなポリープ、複雑な背景、ぼやけた境界をカバーする5つの代表的なテストサンプルを選び、視覚的比較を行います。図5は、選ばれた4つの比較手法(CBSA、FSSA、MSF、PD-Net)のセグメンテーション結果と、グラウンドトゥルースを示している。各予測列には対応するメソッド名が付けられています。Pinwheel-ConvとPolaLinearは、量的性能が大幅に低いため、視覚的明瞭さのためこの図から除外されています。したがって、この図は表3で比較された方法の一部を代表しています。
図5に示すように、小ポリプのシナリオ(第1・5行)ではFSSAとMSFが検出漏れを示しますが、PWD-Netはより完全にターゲットを捉えます。大きなポリープのシナリオ(2列目および3行目)では、CBSAとFSSAが目立つ境界不規則性を生み出し、PWD-Netはより滑らかな境界を生成します。ぼやけた境界シナリオ(4行目)では、PWD-Netはデュアルアテンションメカニズムを通じて背景雑音の効果的な抑制を示しています。
アブレーション研究
PWD-Netにおける各コアコンポーネントの貢献度を分析するために、体系的なアブレーション研究が実施されます。ResNet-50を基盤モデルとして用い、Pinwheel畳み込みモジュール(Pinwheel)、デュアルアテンションメカニズム(Dual-Attn)、マルチスケール特徴融合(MSF)モジュールが段階的に組み込まれています。 表4は 定量的結果をまとめたものです。
表4の主な発見は以下のようにまとめられます。まず、任意の単一のモジュールを追加するとベースラインモデルの性能が向上します。デュアルアテンションメカニズムは最も顕著な効果をもたらし(ダイス:+2.0%、IoU:+2.7%)、適応ノイズ抑制の効果を支持しています。Pinwheel畳み込みモジュールはDiceで1.6%の改善をもたらし、不規則なポリプ形状に対する多方向特徴抽出の利点を示しています。次に、ピンホイール畳み込みとデュアルアテンション機構を組み合わせることで、Dice = 0.858、IoU = 0.748まで性能がさらに向上し、両モジュール間の補完性を示唆しています。最後に、3つのモジュールすべてを統合した完全なPWD-Netは、基準と比較してそれぞれ3.3%と6.0%の改善を示し、最良の観測性能(Dice = 0.865、IoU = 0.765)を達成し、このデータセットにおける各提案コンポーネントの貢献を示しています。
トレーニングプロセス解析
PWD-Netのトレーニングダイナミクスと収束特性を示すために、主要なパフォーマンス指標が50のトレーニングエポックにわたって記録・可視化されています。 図6 は、訓練中の損失関数、ダイス係数、IoU、精度の変動を示しています。
図6(a)に示されているように、トレーニング損失と検証損失は最初の10エポックで急速に減少し、その後徐々に安定します。検証損失は訓練損失よりやや高いままですが、両曲線は小さなギャップで一貫した傾向をたどっており、モデルが深刻な過学習を経験していないことを示しています。図6(b)は、ダイス係数が初期の訓練段階で急激に上昇し、約30回目の時代で収束し、0.86以上に安定することを示しています。図6(c)のIoU曲線も同様の成長傾向を示し、訓練後期で約0.765に達します。図6(d)は、94%を超える精度が収束していることを示しています。中期および後期の学習段階における安定した検証傾向は、採用されたデータ拡張戦略とコサインアニーリングスケジュールがこのデータセットの過学習の緩和に寄与していることを示唆しています。
ポリプサイズを超えたパフォーマンス
異なる臨床シナリオでのPWD-Netの適用可能性をさらに評価するため、検査セット(100枚の画像)は、ポリープ面積と画像総面積の比率に基づいて3つのカテゴリーに分けられています:小さなポリープ(< 5%)、中型ポリープ(5%–30%)、大型ポリープ(> 30%)です。この分類は、ポリプスケールが分節の難易度に与える影響を反映しています。 表5は 各カテゴリーの定量的パフォーマンスを示しています。 表5に示されているように、PWD-Netは中型ポリープカテゴリーで最も優れた性能を達成しています(Dice = 0.882、IoU = 0.790)。これはこのカテゴリーの大きな表現(100枚中54枚)と一致しています。大型ポリープでの性能は同等の水準で維持されています(Dice = 0.861、IoU = 0.760)。小さなポリプでの性能は比較的低く(Dice = 0.812、IoU = 0.685)、主に小さなターゲットが画像の小さな割合を占め、境界情報が少ない背景雑音に弱いためです。
これらの結果は、Pinwheel畳み込みモジュールの多方向特徴捕捉能力とDual-Attentionメカニズムの空間的定位能力が、評価対象テストセット上の異なるポリップスケール間で合理的なセグメンテーション品質を維持することに寄与していることを示唆しています。

図1:PWD-Netモデルの枠組み。 ピンホイール畳み込みとデュアルアテンション(PWD-Net)に基づく提案されたポリープセグメンテーションネットワークの全体的な構造的枠組みで、エンコーダー(ResNet-50)、ボトルネック(PCM)、DAM強化スキップ接続、MSFデコーダ、そして大腸ポリープセグメンテーションの出力生成を示しています。 この図の拡大版はこちらをクリックしてご覧ください。

図2:PWD-Netの全体的なアーキテクチャフローチャート。 PWD-Netアーキテクチャ全体の詳細なフローチャートで、5段階のResNet-50エンコーダ、PCMボトルネック、DAMスキップ接続、マルチスケールフィーチャーフュージョンデコーダ、最終予測生成を示しています。 この図の拡大版はこちらをクリックしてご覧ください。

図3:ピンホイール畳み込みモジュールの回路図。 ピンホイール畳み込みモジュールの構造および運用回路図。多角度回転畳み込みカーネル、双線形補間による回転、チャネル連結、1×1畳み込み集約の実証。 この図の拡大版はこちらをクリックしてご覧ください。

図4:デュアルアテンションメカニズムの構造図。 DAMのアーキテクチャ図で、並列チャネル注意分岐(MLPのグローバル平均プー→リング、減少比r = 16 → シグモイド)と空間注意分枝(チャネルごとのプーリング、7×7畳み込み→シグモイド→)、続いて学習可能な係数αとβの重み付き融合を示しています。 この図の拡大版はこちらをクリックしてください。

図5:セグメンテーション結果の定性比較。 各行はテストサンプルを表しています。左から右へ:入力画像、Ground Truth、CBSA、FSSA、MSF、そしてPWD-Net(私たちのもの)。Pinwheel-ConvとPolaLinearは視覚的明瞭さのためこの図から省略されています。完全な定量的比較については 表3 を参照してください。 この図の拡大版はこちらをクリックしてご覧ください。

図6:50エポックにわたるPWD-Netのトレーニング曲線。 (a) トレーニングおよび検証損失。(b) サイコロ係数。(c) 連合交差点(IoU)(d) ピクセル単位の精度。 この図の拡大版はこちらをクリックしてご覧ください。
| トレーニングサブセット | サンプル数 | 比率 |
| 鉄道セット | 800 | 80% |
| 検証セット | 100 | 10% |
| テストセット | 100 | 10% |
| トータルセット | 1000 | 100% |
表1:データセット統計。Kvasir-SEGデータセットの分割分布(合計1,000枚)は、訓練、検証、テストのサブセットに割り当てられた画像数と割合を示しています(ランダムシード=42)。
| カテゴリー | パラメータ項目 | パラメータ設定 |
| ディープラーニングフレームワーク | フレームワーク | パイトーチ |
| ハードウェア環境 | GPU | NVIDIA テスラ P100 |
| 加速法 | GPUアクセラレーション | CUDA |
| 入力設定 | 入力画像サイズ | 352×352 |
| 画像フォーマット | 画像フォーマット | RGB画像 |
| オプティマイザー | オプティマイザー | アダム |
| 初期学習率 | 初期のLR | 1 × 10⁻4 |
| バッチサイズ | バッチサイズ | 16 |
| 訓練時代 | 時代 | 50 |
| 損失関数 | 損失関数 | ダイス損失 + BCE |
表2:実験パラメータ設定。PWD-Netのトレーニングおよび評価のための実験的パラメータ設定。詳細な実装手順については、データ準備の手順およびプロトコルのセクション5.2を参照してください。
| 方法 | サイコロ ↑ | IoU ↑ | 正確さ ↑ | パラメータ (M) ↓ | FPS ↑ |
| CBSA | 0.8466 | 0.717 | 0.9325 | 18.4 | 36 |
| FSSA | 0.7109 | 0.551 | 0.9012 | 9.8 | 61 |
| MSF | 0.7337 | 0.585 | 0.9086 | 11.5 | 54 |
| ピンホイール・コンヴ | 0.8007 | 0.6742 | 0.9401 | 7.9 | 72 |
| PolaLinear(ポラリニア) | 0.7213 | 0.5707 | 0.9113 | 6.6 | 79 |
| PWD-Net(我々のもの) | 0.865 | 0.7651 | 0.9478 | 9.1 | 63 |
表3:定量比較結果。 PWD-NetとKvasir-SEGテストセット上の5つの既存のポリープ分割法(画像100枚)の定量比較。すべての手法は、同一のデータ分割、前処理、入力解像度(352×352)で評価されます。↑は高いほど良いことを示します。↓は低い方が良いことを示します。*でマークされた方法は、元の論文から引用された結果を示し、再実装されたものではありません。
| 構成 | ピンホイール | デュアルアテン | MSF | サイコロ ↑ | IoU ↑ |
| 基準 | × | × | × | 0.832 | 0.705 |
| + ピンホイール | √ | × | × | 0.848 | 0.725 |
| + デュアルアテン | × | √ | × | 0.852 | 0.732 |
| + MSF | × | × | √ | 0.844 | 0.72 |
| + ピンホイール + デュアルアテン | √ | √ | × | 0.858 | 0.748 |
| フル(PWD-Net) | √ | √ | √ | 0.865 | 0.765 |
表4:アブレーション検査結果。Kvasir-SEGテストセットでのアブレーション研究結果は、Pinwheel畳み込みモジュール(Pinwheel)、Dual-Attentionメカニズム(Dual-Attn)、およびマルチスケール特徴融合(MSF)がベースラインResNet-50エンコーダに段階的に寄与していることを示しました。
| ポリープ型 | 番号 | サイコロ ↑ | IoU ↑ |
| 小さなポリープ(< 5%) | 21 | 0.812 | 0.685 |
| 中ポリープ(5%–30%) | 54 | 0.882 | 0.79 |
| 大きなポリープ(> 30%) | 25 | 0.861 | 0.76 |
表5:異なるポリープタイプに対するPWD-Netの性能。Kvasir-SEGテストセット内の異なるポリープサイズカテゴリーに対するPWD-Netの性能(100枚画像)。ポリープの大きさは、ポリープ面積と画像総面積の比率によって定義されます。
補足ファイル: PWD-Netフレームワークの実装を含む圧縮アーカイブ。model.py ファイルには、ピンホイール畳み込みモジュール(PCM)とデュアルアテンション機構(DAM)を用いたネットワークアーキテクチャの定義、データロードパイプライン、損失関数、訓練手順の実装、テストデータセットのモデル推論と評価 test.py、必要なPythonライブラリおよび対応するバージョンの一覧 train.py requirements.txtが含まれています。このファイルをダウンロードするには、こちらをクリックしてください。
PWD-Netプロトコルのいくつかの設計選択は、信頼性の高いセグメンテーション結果を得るために重要であり、実装時に細心の注意を払う必要があります。まず、エンコーダバックボーンの選択と初期化が収束挙動や最終性能に直接影響します。このプロトコルはImageNet上で事前学習されたResNet-50エンコーダを採用しており、低レベルおよび中間レベルの機能初期化を堅牢な提供します。これは、利用可能な訓練データが限られている医療画像セグメンテーションタスク(本研究では800枚の画像)において特に重要です。すべてのエンコーダ層を凍結するのではなく微調整することで、ネットワークは事前に学習済みの特徴を粘膜テクスチャや鏡面反射など大腸内視鏡画像の特定の特性に適応させることができます。次に、各コアモジュールのアーキテクチャ内での配置は意図的です。ピンホイール畳み込みモジュール(PCM)は、空間分解能が最も低いが意味情報が最も豊富なボトルネックに位置し、過度な計算コストなしにグローバル幾何学的パターンを効率的にキャプチャすることを可能にします。デュアルアテンション機構(DAM)はデコーダ内ではなくスキップ接続部に組み込まれており、特徴がデコーダに送信される前に背景雑音を抑制し、汚染された特徴が融合段階を通過するのを防ぎます。アブレーション研究(表4)はこの設計を支持しており、DAMが個別の性能向上(Dice: +2.0%)を最も大きく寄与しており、特徴パイプラインにおける早期ノイズ抑制の重要性が確認されています。第三に、ハイブリッド損失関数(0.5 ·BCE + 0.5 ·Dice)はピクセルレベルの分類精度と領域レベルのオーバーラップ最適化のバランスを取っています。この組み合わせは、前景と背景のクラス不均衡がよく見られるポリープの分割において特に重要です。等重み付け(λ = 0.5)がデフォルトとして採用されます。異なるクラス分布を持つデータセットでは、この比率の調整が必要になる場合があります(下記のトラブルシューティング参照)。
改造とトラブルシューティング
以下の修正およびトラブルシューティングガイドラインは、プロトコルを異なる実験環境に適応させるためのものです。異なる画像解像度やポリップサイズ分布を持つデータセットにプロトコルを適用する場合、入力解像度(352 x 352)の調整が必要になることがあります。入力サイズが大きいことは、メモリ消費の増加と推論速度の低下を伴いますが、小さなポリープ検出を改善する可能性があります。訓練損失が50エポック以内に収束しない場合は、初期学習率を5×10⁻5に短縮するか、コサインアニーリングサイクルの長さを延長することを検討してください。もしモデルが重度の鏡面反射や粘膜褶皺のある領域で高い偽陽性率を示す場合、Dice損失成分の重み(例:BCEではλ = 0.4、Diceでは0.6)を増やすことで、ピクセルレベルの精度を犠牲にして境界精度を向上させる可能性があります。逆に、モデルが小さなポリープを下に分割している場合は、BCEの重みを増やすことが助けになるかもしれません。PCMの回転角数(現在は8つ、0°から315°まで45°刻み)は、方向性のカバレッジと計算コストのバランスを表しています。4角度(0°、90°、180°、270°)に縮小すると計算量は減少しますが、斜めポリープ境界に対する感度は低下する可能性があります。DAMのチャネル注意分岐における還元比r = 16は、以前のスクイーズ・励起ネットワーク32で確立された慣例に従います。比率が小さい(例:r = 8)はモデル容量を増加させますが、小規模なデータセットでは過学習を引き起こす可能性があります。Kvasir-SEGを大幅に上回るデータセットについては、バッチサイズと訓練エポックを拡大し、検証指標を監視して適切な終了点を特定しましょう。
代替手法に対する重要性
PWD-Netアーキテクチャは、既存のアプローチの特定の限界を3つの補完モジュールを通じて解決しています。標準的な正方形畳み込みカーネルに依存する手法と比較すると、PCMは多角度回転カーネルを通じて方向感度を提供し、大腸ポリープの不規則で多様な形態への適応性を向上させます。単一次元の注意メカニズム(例:スクイーズ・エキサイテーションネットワークにおけるチャネルのみの注意33)と比較して、DAMはチャネル重要性と空間的重要性を共同でモデル化し、複雑な大腸内視鏡環境におけるより包括的なノイズ抑制を提供します。TransUNet34 やPolyp-PVT35のようなトランスフォーマーベースのアーキテクチャと比較すると、これらは強力なグローバルモデリングを提供しますが計算コストは高いですが、PWD-Netは比較的コンパクトなモデルサイズ(910万パラメータ)と実用的な推論速度(63 FPS)で競争力のある性能を達成しており、 表3に記載されています。
本研究で示された比較(表3)は、同一のデータ分割、前処理、評価プロトコルを用いた制御条件下で実施されていることに注意が必要です。観察された性能の違いは本研究で使用されたKvasir-SEGテストセット(100画像)に特有であり、他のデータセットや臨床環境に直接一般化できない場合があります。標準化された多データセットベンチマークの下で、確立されたベースライン(例:PraNet36、ResUNet++37)を取り入れたより広範な比較は、エビデンスをさらに強化し、今後の研究で計画されています。ポリップセグメンテーション38 のデュアルエンコーダ-デコーダアーキテクチャに関する最近の研究は、並列エンコーディングおよびデコード経路の可能性を示しています。PWD-Netのアーキテクチャは、単一のエンコーダ・デコーダパイプライン内で回転幾何学的モデリングとデュアルアテンションフィルタリングに重点を置き、補完的な設計哲学を表しています。
この研究にはいくつかの重要な限界があることを認めておくべきです。まず、実験範囲に関しては、本研究はKvasir-SEGデータセットのみで、800の訓練、100の検証、100のテスト画像の単一ランダムスプリットで結果を報告しています。テストセットのサイズ(画像100枚)は比較的小さく、繰り返し実験やクロスバリデーションなしに単一のトレーニングランのみが報告されます。したがって、報告されたパフォーマンス指標は特定のデータ分割に関連する分散の影響を受けることがあります。今後の研究では、kフォールドクロスバリデーションや複数のランダムスプリットと標準偏差報告を取り入れ、より堅牢な性能推定を提供すべきです。次に、PCMは多角度カーネル回転と集約による追加の計算オーバーヘッドを導入します。全体のモデルはコンパクト(910万パラメータ)のままですが、臨床環境でのリソース制約のあるデバイスへの展開には、知識抽出やモデル剪定などの技術によるさらなる最適化が必要となる場合があります。第三に、モデルは静止画像のみで訓練・評価されるのに対し、臨床大腸内視鏡はポリープの外観、大きさ、視点が連続したフレーム間で動的に変化するリアルタイムのビデオストリームを用いています。63 FPSの推論速度はリアルタイムフレームレートと互換性がありますが、この指標だけでは臨床的検証にはなりません。臨床準備の主張を行うには、内視鏡ビデオデータ、リーダー研究、および下流の臨床評価項目解析に対する前向き検証が必要です。現在の研究は臨床的に検証されたシステムではなく、方法論的貢献として理解されるべきです。
第四に、AI支援ポリープセグメンテーションの臨床翻訳経路は、セグメンテーションの精度をはるかに超えています。最近のレビューでは、高度な画像診断および解析ツールは病変分類、病期、治療計画など、より広範な内腔内ワークフローに統合される必要があることが強調されています。現在のプロトコルは二元ポリープの断片にのみ焦点を当てており、臨床判断に不可欠な病理学的42分類(例:腺腫性ポリープと過可塑性ポリープ)や悪性リスク評価には対応していません。第五に、本研究で使用されたデータセットは主に成人の大腸内視鏡検査から得られています。小児ポリープ、炎症性腸疾患に関連するポリープ、その他の特殊病理学的タイプに関するデータは記載されていません。これらの集団に対するモデルの一般化可能性はまだ検証されていません。第六に、各モジュールの機能を示すためにアブレーション実験や定性的可視化が提供されていますが、モデルの解釈可能性は限られています。ディープラーニングモデルの意思決定プロセスは完全に透明ではなく、臨床医の信頼や採用に影響を与える可能性があります。今後の研究では、勾配ベースの可視化技術を取り入れ、モデル予測のより直感的な説明を提供する可能性があります。
上記の限界にもかかわらず、PWD-Netプロトコルはポリープ分割の再現可能な枠組みを提供し、さらなる開発の基盤となる可能性があります。考えられる方向性には、時間モデリング技術を取り入れてビデオベースの大腸内視鏡解析にモデルを拡張すること、エンドツーエンドの分断および病理的型分けのための分類部門の追加;評価をより大規模かつ多様な多中心データセットに拡大すること、また、AI支援画像解析が主要な実現技術としてますます認識されている内腔型ロボットプラットフォームへの統合を探る44,45。このプロトコルに付属する補助コードパッケージは、他の研究グループによる手法の再現と適応を促進することを目的としています。
著者たちは何も明かすことはありません。
本研究は中国国家重点研究開発プログラム(プログラム番号2022YFC3500200および2022YFC3500204)によって資金提供を受けました。
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| アダム・オプティマイザー | — | — | PyTorchに含まれている |
| アルブネテーション | アルブメンテーションズ・チーム | v1.0+ | データ拡張ライブラリ |
| CUDAツールキット | NVIDIA | v11.3+ | GPUアクセラレーション |
| Kvasir-SEGデータセット | シミュラメット | — | https://datasets.simula.no/kvasir-seg/ |
| Matplotlib | Matplotlibコミュニティ | v3.4+ | トレーニング曲線の可視化 |
| NumPy | NumPyコミュニティ | v1.21+ | 数値計算 |
| NVIDIA テスラ P100 | NVIDIA | P100-PCIE-16GB | トレーニングと推論のためのGPU |
| OpenCV | OpenCVコミュニティ | v4.5+ | 画像前処理 |
| パイソン | Pythonソフトウェア財団 | v3.8+ | プログラミング言語 |
| パイトーチ | メタプラットフォーム | v1.12+ | ディープラーニングフレームワーク |
| ResNet-50事前訓練重り | パイトーチ・モデルズー | — | ImageNet-1K 事前学習済み |
| Ubuntu(ウUbuntu | 正典 | 18.04+ | オペレーティングシステム |
Request permission to reuse the text or figures of this JoVE article
Request Permission