Method Article

大腸前がん病変診断のためのピンホイール畳み込みと二重注意に基づくポリープセグメンテーションネットワーク

DOI:

10.3791/71178

June 26th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

このプロトコルは、ピンホイール畳み込み、デュアルアテンション、多スケール融合を統合したU字型ディープラーニングネットワークを実装し、大腸ポリープをセグメント化します。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

大腸ポリープの正確なセグメンテーションは、大腸がんの早期予防と診断に不可欠です。しかし、ポリープの形状、大きさ、質感が非常に異質であり、腸内環境(ひだ、鏡面反射、糞便残渣など)も複雑であるため、既存の方法は境界の定位や小ポリープ検出において依然として大きな課題に直面しています。これらの課題に対処するため、本論文はピンホイール畳み込みとデュアルアテンション(PWD-Net)に基づくポリップ分割ネットワークを提案します。提案されたネットワークはU字型のエンコーダ–デコーダアーキテクチャを採用しており、事前学習済みのResNetをエンコーダとして用いて多層局所特徴を抽出します。具体的には、ピンホイール畳み込みモジュール(PCM)をボトルネック層に導入し、多角度回転畳み込みカーネルを通じてポリプのグローバルな幾何学的構造と多方向の文脈情報を捉えます。チャネル注意と空間注意を統合するデュアルアテンションメカニズム(DAM)は、背景雑音を適応的に抑制し、ポリープ領域の特徴を強化することを目的としています。さらに、マルチスケール特徴融合(MSF)戦略を用いて、深い意味情報と浅い境界の詳細を組み合わせ、セグメンテーション結果の完全性と精度の両方を確保しています。Kvasir-SEGおよびCVC-ClinicDBデータセットで行われた実験では、PWD-Netはそれぞれ平均Dice係数0.865と0.944、IoUスコア0.765と0.892を達成し、既存の最先端手法を大きく上回っています。アブレーション研究は各モジュールの有効性を検証し、データセット横断評価によりモデルの強力な一般化能力が確認されます。本研究は、臨床ポリープの分割に関する高精度かつ堅牢なソリューションを提供し、大腸前がん病変の早期診断に大きな価値を提供し、コンピュータ支援介入を支援します。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

大腸がんは世界的に最も一般的な悪性腫瘍の一つであり、発生率と死亡率は常に高いです。研究によれば、ほとんどの大腸がんは腺腫性ポリープから発症することが示されており、この過程は通常10〜15年かかるため、早期発見や介入のための貴重な時間軸となっています。腺腫検出率(ADR)を1%増加させることで、大腸がんのリスクを約3%減少させ、患者の死亡率を有意に低下させることができます大腸内視鏡検査は大腸がん検診のゴールドスタンダードとされており、検査中にポリープを直接除去できるため、がんの発生率と死亡率を効果的に減少させます。

しかし、従来の大腸内視鏡検査は内視鏡医の経験と技術レベルに大きく依存します。主観的判断、視覚疲労、注意散漫などの要因により、20%〜30%の誤入率が生じ、スクリーニングの効果に直接影響します。したがって、大腸ポリープの自動分割のためのコンピュータ支援検出(CAD)システムの開発は、ADRの改善と診断見落としの減少に非常に重要です。最近の臨床調査では、人工知能を内視鏡病変評価ワークフローに統合する関心がさらに浮き彫りになり、堅牢で再現性の高いセグメンテーション手法の必要性が強調されています3.

近年、ディープラーニングは医療画像解析、特に畳み込みニューラルネットワーク(CNN)において顕著な進歩を遂げており、画像セグメンテーションタスクにおける特徴抽出と表現に強い能力を示しています。古典的な医療画像セグメンテーションモデルとして、U-Netは対称エンコーダ–デコーダアーキテクチャを採用し、接続をスキップして正確なピクセルレベルのセグメンテーションを実現しており、この分野のベンチマークとなっています5。U-Netを基に、複雑な医療画像セグメンテーションタスクに対応するために多くの改良アーキテクチャが提案されています。UNet++は、ネストされたスキップ接続と密集したスキップ接続を導入することで、エンコーダとデコーダの特徴マップ間の意味的なギャップを減らします。ResUNet++は残留ブロック、圧縮・励起モジュール、拡張畳み込み、注意メカニズムを統合し、ポリップ分割7で高い性能を達成しています。U2-Netは、マルチスケールの特徴情報を捉えるために2層の入れ子状U字型構造を採用しています8。最近では、並列符号化と復号経路を活用して分割精度をさらに向上させる二重エンコーダー・デコーダベースの深層ポリープ分割ネットワークが提案されています。

一方で、注意機構の導入により、特徴の強化やノイズ抑制の新たな解決策が生まれます。注意 U-Netは注意ゲートを用いてターゲット領域に集中しつつ、無関係な背景情報を抑制します。デュアルアテンションネットワーク(DANet)はチャネル次元と空間次元の両方から特徴を適応的に重み付けし、重要な特徴の知覚を向上させます。トリプルアテンションネットワーク(TANet)は、マルチスケール特徴の適応選択を通じてセグメンテーション性能をさらに向上させます12

自然言語処理やコンピュータビジョン13におけるトランスフォーマーアーキテクチャの成功を受けて、研究者たちは医療画像セグメンテーションへの応用を探り始めています。TransUNetは、長距離依存関係を実質的にモデル化するためにトランスフォーマーをエンコーダとして初めて使用した企業です。Swin-UNetは純粋なトランスフォーマーアーキテクチャを採用し、シフトウィンドウメカニズム15を通じて効率的なグローバル情報集約を実現します。UTNetはCNNの局所的特徴抽出能力とTransformers16のグローバルモデリング能力を組み合わせたハイブリッドアーキテクチャを提案しています。

ポリップセグメンテーションの分野では、Polyp-PVTはピラミッドビジョンのTransformerを用いて多スケールのグローバルセマンティック情報を捉え、マルチスケールのネストUNetはTransformers18を統合することで文脈理解を強化します。最近の研究では、クロスドメインポリプセグメンテーション19、ゴンパーツ拡張セグメンテーション強化20、境界ガイダンスを取り入れた注意ベースのアーキテクチャ21における負の相関学習戦略も探求されています。これらの手法はある程度セグメンテーションの性能を向上させますが、ポリプセグメンテーションには依然としていくつかの課題があります。まず、ポリプは形態、大きさ、質感において非常に異質で、5mm未満の微小ポリプから30mmを超える大きなポリプまで幅広く、形状は円形や楕円形から非常に不規則な形状まで様々です。第二に、腸環境は複雑かつ多様であり、粘膜ひだ、鏡面反射、便残留物、食物残渣などが深刻な背景干渉をもたらします。第三に、多くのポリープは境界がぼやけたり、ひだで部分的に塞がれたり、腸液に浸かっていることがあり、正確な境界の特定は非常に困難です。

既存の手法はこれらの課題に対処する上で依然として明確な限界を抱えています。従来のCNNは局所的なテクスチャやエッジの特徴を抽出するのに効果的です。しかし、固定された正方形畳み込みカーネルは、特に高度に不規則なポリプに対して多様な幾何学的形状23の捕捉には適しておらず、多方向の幾何学的特徴を効果的にモデル化することはできません。トランスフォーマーベースの手法はグローバル依存関係をモデル化できますが、細かい局所的詳細や境界情報の取得には効果が劣ります。さらに、計算の複雑さが高いため、リアルタイムの臨床応用にはあまり適していません。最近のポリップセグメンテーション手法であるPraNet(リバースアテンションモジュールを用いて重要な領域を精細化)、境界指向カスケード注意ネットワーク(境界特徴抽出を強化する)26、エンコーダーとデコーダの特徴をクロスアテンション機構で融合させるCAFE-Net(27)などは、小さなポリプを扱う際に特徴表現が不十分で境界局在の精度が低い28の課題に直面しています、曖昧な境界線、複雑な背景。さらに、多くの手法は幾何学的形態を無視し、多方向の文脈情報を十分に活用できず、不規則な形状のポリープの最適でない分割を生み出しています。

まとめると、現在のCNNベースの手法は固定された正方形畳み込みカーネルに依存しているため、多方向幾何学的特徴を捉える能力が不足しています。トランスを基盤としたアプローチはグローバルモデリングを提供しますが、局所境界の精度を犠牲にし、計算コストも高くなります。一方で、既存の注意強化型およびマルチスケール融合戦略は、ポリップセグメンテーションに特化した統一フレームワークの中で共同で最適化されていません。これらのギャップが、幾何学的特徴モデリング、適応ノイズ抑制、スケール横断特徴統合を同時に扱う手法の開発を促しています。

これらの問題に対処するため、本プロトコルはピンホイール畳み込みとデュアルアテンション(PWD-Net)に基づくポリップセグメンテーションネットワークを提示します。提案されたネットワークは幾何学的特徴モデリング、多次元注意強化、多スケールの特徴融合を統合し、複雑なポリプの正確なセグメンテーションを可能にします。この研究の主な貢献は以下の通りです:ピンホイール畳み込みモジュール(PCM)は、ピンホイールの構造に着想を得て、0°、45°、90°、135°、180°、225°、270°、315°の複数の角度での畳み込み操作を通じてポリプの多方向幾何学的特徴を捉える新しい回転畳み込みカーネル設計を提案します。このモジュールはボトルネック段階で従来の畳み込み層に代わり、多様なエッジの向きを効果的に認識し、不規則な形状のポリプの表現を大幅に向上させます。二重注意機構(DAM)は、大腸内視鏡画像における褶曲、反射、便残留物などの背景ノイズに対応します。チャネル注意と空間注意を統合した二重注意モジュールが設計されています。スキップ接続に組み込まれたこのモジュールは、背景干渉を適応的に抑制し、ポリップ領域における特徴応答を強化します。これは「重要なもの」(チャネル寸法)と「どこ」の標的であるか(空間次元)を共同で識別することで、後の融合には精細化された特徴のみが関与するようにします。マルチスケール特徴融合戦略(MSF)は、デコーダで導入された階層的なメカニズムを通じて、深い意味情報と浅い境界の詳細の両方を保持します。DAM強化エンコーダの特徴をアップサンプリングされたデコーダ機能と段階的に統合することで、ダウンサンプリングによる空間的ディテール損失を効果的に補正し、小さなポリープの正確な検出や境界の正確な区分を可能にします。

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究は公開されている匿名化された大腸内視鏡画像データセット(Kvasir-SEG)のみを使用しています。新たなヒト被験者データは収集されませんでした。非特定化された公開データセットの遡及的分析に関する機関審査方針によって確認されているように、機関倫理承認および患者インフォームド同意は必要ありませんでした。

1. データ準備

  1. 公式リポジトリ33(https://datasets.simula.no/kvasir-seg/)からKvasir-SEGデータセットをダウンロードしてください。データセットには、ピクセルレベルのグラウンドトゥルースマスクを備えた1,000枚のポリップ画像が含まれています。
  2. データセットを訓練(800枚)、検証(100枚)、テスト(100枚)にランダムに分割し、固定されたランダムシード(シード=42)を用いて8:1:1の比率で分けます。データ漏洩を防ぐために、3つのサブセット間で画像が重複していないか確認してください。
  3. 画像および対応するマスクを、画像にはバイリニア補間、マスクには近傍補間を用いて352×352ピクセルにリサイズします。
  4. ピクセル値を255で割って[0, 1]に正規化し、その後ImageNetのチャネルごとの平均減算(0.485, 0.456, 0.406)と標準偏差正規化(0.229, 0.224, 0.225)を適用します。
  5. 以下の拡張変換は訓練セットにのみ適用します(検証セットやテストセットには適用しません):ランダム水平反転(確率=0.5);ランダムな垂直反転(確率=0.5);ランダム回転(範囲:−30°から+30°、確率=0.5);ランダムなマルチスケールリサイズ(スケールファクター:0.75から1.25、確率=0.5)
    注意:アライメントを維持するために、画像と対応するマスクの両方に同一の空間変換を適用してください。トレーニング開始前に、複数の拡張画像–マスクペアを視覚的に確認して拡張の正確性を確認しましょう。

2. 全体的なアーキテクチャ

注:PWD-Netのマクロレベルのエンコーダ–デコーダバックボーンについては図1、フィーチャーフロー内のコアモジュールの統合と相互作用については図2を参照してください。全体のアーキテクチャは、ポリープのスケール変化や大腸内視鏡画像における背景干渉に対応するため、U字型のエンコーダー・デコーダ設計に従っています。

  1. バックボーンと符号化経路(図1)
    1. ImageNetで事前学習済み(公式のPyTorchモデル動物園から提供)をバックボーンエンコーダーとして使用してください。トレーニング中にすべてのエンコーダー層を微調整してください。
    2. 入力された大腸内視鏡画像(352×352ピクセルにリサイズ)を5段階の残留畳み込みブロックを通して送り込み、階層的特徴を抽出します。特徴マップの空間分解能は5段階にわたって段階的にダウンサンプリングされ、チャネル寸法もそれに応じて増加します(64 → 128 → 256 → 512 → 1024)。
    3. ボトルネック(最も深いエンコーダ層)では、標準畳み込み層をピンホイール畳み込みモジュール(PCM、セクション3で説明)に置き換え、グローバルな幾何学的形態と多方向の文脈情報を低解像度でキャプチャします。
      : 5つのエンコーダ段階は標準的なResNet-50レイヤーグループ(conv1、layer1、layer2、layer3、layer4)に対応しています。事前学習済み重みは、低レベルおよび中間レベルの機能初期化を堅牢なものにし、小規模な医療データセットでの収束時間を短縮します。
  2. 主要コンポーネントと機能相互作用(図2および図3)
    1. 各エンコーダステージの出力にデュアルアテンション機構(DAM、セクション4で説明)を適用し、スキップ接続を介してデコーダに送信します。このステップは腸のひだや鏡面反射によって発生する背景ノイズを適応的に抑制しつつ、ポリープ領域の特徴応答を高めます。フィルタリングされた特徴だけが対応するデコーダ層に渡されます。
    2. デコーダでは、バイリニアアップサンプリングを通じて空間分解能を段階的に復元します。各デコーダ層で、前のデコーダ段階からアップサンプリングされた特徴と、同じ空間分解能を持つDAM強化エンコーダの特徴を連結します。
    3. 連続した2つの畳み込みレイヤー(それぞれにバッチ正規化とReLU活性化)を適用してマルチスケール情報を融合させます。これが第5節で説明されているマルチスケール特徴融合(MSF)戦略を構成します。
      : デコーダは深層から浅層(ステージ5→ステージ1)へと進み、深い意味的局在情報と浅い境界詳細情報が各レベルで効果的に統合されることを保証します。
  3. 出力生成
    1. 最終的なデコーダ出力に畳み込み層を適用し、その後シグモイド活性化関数を適用して予測マスクを生成します。
    2. 予測マスクを0.5の閾値で二分化し、最終的なセグメンテーション結果を得る。予測確率0.5のピクセルはポリップ、残りのピクセルは背景として分類≥。

3. ピンホイール畳み込み加群 (図3)

  1. ピンホイール畳み込みモジュール(PCM)は、標準的なボトルネック畳み込みに代わってポリプの多方向幾何学的特徴を捉えます。このモジュールを以下のように実装します:
    1. 入力チャネルC、出力チャネルにCを割り当てるサイズの基底畳み込みカーネルWを定義します。
    2. 回転角の集合 Θ = {0°, 45°, 90°, ..., 315°} を定義します。各角度θ∈Θに対して、Wに双線形補間に基づく回転を適用して回転核Wθ を生成します。8つの回転した核すべてが同じ基準パラメータを共有しています。異なるのは重みの空間配置だけです。
    3. 各角度θに対して、方向ごとの特徴マップを計算します:
      figure-protocol-1
      ここで X は入力特徴マップです。
    4. 8つの方向性特徴写像をチャネル軸に沿ってチャネルごとに連結して集約し、次元(8 x Cout) x H x W のテンソルを生成します。次に1×1畳み込みを適用してチャネル次元をCアウトに戻し、バッチ正規化とReLU活性化31を行います。
      figure-protocol-2
      注意:回転と補間は入力特徴マップではなく核重み上で行われます。この設計により、入力分解能を上げることなくパラメータ効率の高い多方向特徴抽出が可能になります。現在の実装では、ボトルネック段階でCin = 1024、Cout = 1024となり、ResNet-50のlayer4の出力チャネル寸法と一致します。完全な実装については補足コードパッケージを参照してください。

4. 二重注意メカニズム(図4)

注: デュアルアテンション機構(DAM)は各スキップ接続に組み込まれ、背景雑音を抑制し、チャネル次元および空間次元の両方からポリープ領域の特徴を強化します。

  1. チャンネル・アテンション
    チャネルアテンションブランチは、どの特徴チャンネルが最も情報を提供するかを特定します。入力特徴F ∈ RC×H×Wが与えられると:
    1. グローバル平均プーリングによって空間次元を圧縮し、RC×1×1 ∈チャネル記述子zを得ます。
    2. zを2層MLP(完全連結層)に通し、還元比はr = 16です。最初の層では、ReLUの活性化により次元をCからC/16に減少させます。第2層では、シグモイド活性化によりC/16からCへ戻し、チャネルウェイトベクトルAcを生成します。
      figure-protocol-3
      ここでδはReLU、σはシグモイドを表します。
  2. 空間的注意
    空間注意枝は、ターゲット領域がどこにあるかを示します:
    1. チャネル次元に沿って最大プーリングと平均プーリングの両方を適用し、サイズ1×H×Wの2Dフィーチャーマップを生成します。
    2. 2つの写像をチャネル軸に沿って連結し、2×H×Wテンソルを形成します。7×7畳み込み層を適用し、その後シグモイド活性化を行って空間重みマップAs ∈R1×H×Wを生成します。
      figure-protocol-4
  3. フィーチャーフュージョン
    1. チャネルと空間注意の出力を入力特徴と要素ごとに乗算して融合させます:
      figure-protocol-5
      ここでαとβは学習可能なバランス係数で、どちらも0.5に初期化され、トレーニング中に勾配ベースの最適化によってネットワークパラメータと同時に更新されます。
      注:完全な実装については補足コードパッケージ(dam_module.py)を参照してください。

5. マルチスケール特徴融合

  1. デコーダにマルチスケール特徴融合(MSF)戦略を適用し、深部特徴における空間的詳細損失を解決します。各デコーダ段階で、以下の作業を行います。
  2. 前段階のデコーダから特徴マップをバイリニア補間を用いて2倍アップサンプリングします。
  3. アップサンプリングされた特徴を、チャネル軸に沿って対応する空間分解能のDAM強化エンコーダ機能と連結します。
  4. 連続した2つの3×3畳み込みレイヤー(それぞれにバッチ正規化とReLU活性化32)を適用して連結した特徴を融合させます。
    注:このクロスレベル融合により、ポリプの境界詳細(浅いエンコーダー特徴によって提供される)と意味的局在(深い特徴によって提供される)が同時に保持され、細かな分割結果が生成されます。

6. 損失関数と訓練構成

  1. 損失関数
    1. ネットワークを共同最適化するためにハイブリッド損失関数L_total採用され、ポリップセグメンテーションにおける広く見られる前景と背景のクラスの不均衡に対応しています。
      バイナリクロスエントロピー損失(LBCE)は、ピクセルレベルの分類精度を測定します:
      figure-protocol-6
      ここで N はピクセル数の総数、yi ∈ {0,1} はグラウンドトゥルースラベル、ŷi ∈ [0,1] は予測確率です。
    2. ダイス損失(LDice)は、予測領域と実際の領域の集合的な類似度を定量化します。
      figure-protocol-7
      figure-protocol-8
      ここでεは、ゼロでの割り算を避けるために平滑化係数(1×10⁻5に設定)です。
      λ = 0.5を設定して、2つの損失項の寄与を釣り合います。
  2. トレーニング構成
    1. ImageNetで事前に学習されたResNet-50の重みでエンコーダを初期化します。すべてのデコーダ層、PCM、DAMパラメータをKaimingの均一初期化で初期化します。
    2. オプティマイザーとトレーニングスケジュールを以下のように設定します。β₁ = 0.9、および β₂ = 0.999 の Adam オプティマイザを使用します。初期学習率を1×10⁻⁴に設定します。T最大 値=50、η =1×10⁻⁶のコサインアニーリング学習率スケジュールを適用します。バッチサイズを16にし、モデルを50エポックで訓練します。
    3. トレーニングセット上で50エポック(800枚の画像)を学習させます。各エポック終了時に、検証セット(100枚の画像)上でモデルを評価し、ダイス係数を主要なモニタリング指標として使用します。
    4. 検証セット上で最大のダイス係数を達成するモデルのチェックポイントを保存します。このチェックポイントをテストセットでの最終モデルとして使用してください。
      注意:早期停止は明示的に適用されません。最良の検証-ダイスチェックポイント選択戦略がモデル選択基準として機能します。すべての実験は、 材料表に指定されたハードウェアおよびソフトウェア環境で行われます。800枚の画像で50エポックの訓練は、記載された構成の下で約2時間かかります。報告されたすべての結果は、指定されたランダムシード(シード=42)を用いた単一のトレーニングランから得られます。完全なトレーニングスクリプトについては補足コードパッケージを参照してください。

7. 擬似コード

  1. アルゴリズム1をPWD Netの完全なワークフローマップとして使用してください。アルゴリズム内のPCM、DAM、メインアーキテクチャ、トレーニングパイプラインのブロックを、補助コードパッケージ内の対応ファイルと照合してください。
  2. 4行目から12行目に示されたPCMブロックを実装してください。3×3の畳み込みカーネルを定義し、0°、45°、90°、135°、180°、225°、270°、315°の方向で8つの回転したカーネルを双線形補間を用いて生成します。
  3. 回転したPCMカーネルは同じ学習可能な基準パラメータを保持してください。各回転角ごとに、1方向固有の特徴マップを計算します。
  4. 8つのPCM特徴写像をチャネル次元に沿って連結します。1×1の畳み込み、バッチ正規化、ReLUの活性化を適用して、元のチャネル次元を復元します。
  5. 14行目から19行目に示されたDAMブロックを実装してください。グローバル平均プーリングを適用してチャネルディスクリプタを作成し、その後、還元比16の2層MLPに通してチャネル重みを取得します。
  6. 入力特徴にチャネルごとの平均プーリングと最大プーリングを適用して空間注意マップを生成します。2つのマップを連結し、7×7畳み込み処理の後、シグモイドの活性化を行います。
  7. DAMチャネルと空間注意出力を入力機能と要素ごとの乗算で融合させます。学習可能な係数αとβの2つの注意マップを重み付けし、どちらも0.5に初期化します。
  8. 21行目から32行目に示された主要なPWDネットワークアーキテクチャを構築します。入力画像を事前学習済みのResNet 50エンコーダの5段階に通し、e1からe5までを得ます。空間分解能はH×WからH/32×W/32へと低下します。
  9. ボトルネックのe5にPCMを塗布します。これらの機能をスキップ接続でデコーダーに送る前に、e1からe4にDAMを適用してください。
  10. 特徴マップを深層から浅層まで復号します。各デコーダレベルで、前述の特徴をアップサンプリングし、対応するDAMエンハンストエンコーダ機能と連結し、DoubleConvを適用して特徴量融合を行います。
  11. 1×1畳み込みで分割出力を生成し、その後シグモイド活性化を行います。得られたピクセルごとの確率マップを予測マスクとして用いてください。
  12. 34行目から39行目に示されたトレーニングループを実装してください。各エポックでPWDネットを通じて順方向伝搬を実行し、予測されたマスクを計算します。
  13. トレーニング損失は0.5×BCE損失に0.5×ダイス損失を加えて計算します。Adam最適化器でバックプロパゲーションを通じて学習可能なパラメータをすべて更新します。

アルゴリズム1:PWD-Netポリープ分割
1: 入力: 大腸内視鏡画像 I∈ R H×W×3
2: 出力: セグメンテーションマスク M ∈ {0,1}(H×W)
3:
4: 関数 PCM(X) ▷ ピンホイール畳み込み加群
5: 基底核W(3×3)を定義し、角度Θ = {0°, 45°, ..., 315°}
6: θ ∈ Θ に対して
7: Wθ ← BilinearRotate(W, θ) ▷ 核を回転させる
8: Yθ ← Conv2d(X, Wθ) ▷ 方向特異的特徴
9: 終了
10: Yout ← ReLU(BN(Conv1 x 1(Concat({Yθ})))) ▷ 集計
11: Yを戻す
12: 終了関数
13:
14: 関数 DAM(F) ▷ デュアルアテンション機構
15: Ac ← Sigmoid(MLP(AvgPool(F))) ▷ チャネル注意 (r=16)
16: As ← シグモイド(Conv7 x 7([平均プール(F);MaxPool(F)])) ▷ 空間注意
17: F' ← F ⊗(α ·Ac + β ·As) ▷ 学習可能なαと融合β (init=0.5)
18:帰還 F'
19: 終わり関数
20:
21: 関数 PWD-Net(I)
22: エンコーダ: e1,e 2, e3, e4, e5 ← ResNet50_Stages(I) ▷ 5段階の事前学習済みエンコーダ
23: ボトルネック: b ← PCM(e5) ▷ ボトルネックにPCMを適用
24: 接続スキップ: si ← DAM(ei) に対して i = 1, 2, 3, 4 ▷ フィルターエンコーダ機能
25: デコーダー:
26: d4 ← ダブルコンバージョン(Concat(Up(b), s4))
27: d3 ← ダブルコンヴ(Concat(Up(d4)、s3))
28: d2 ← ダブルコンヴ(Concat(Up(d3)、s2))
29: d1 ← ダブルコンヴ(Concat(Up(d2), s1))
30: M ← シグモイド(Conv1 x 1(d1))
31:帰還 M
32: 終末関数
33:
34:トレーニング:
35: 各時代 ごとに
36: M̂ ← PWD-Net(I)
37: L ← 0.5 ·BCE(M̂, Mgt) + 0.5 ·DiceLoss(M̂, Mgt) ▷ λ = 0.5

38: パラメータを逆伝播で更新(Adam optimizer)
39:終わり

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

実験装置
データセット

Kvasir SEGデータセットは、異質なポリープの外観を持つ大腸内視鏡画像におけるPWD Netのセグメンテーション挙動を評価するために用いられました。このデータセットには1,000ピクセルの注釈付きポリプ画像が含まれており、ポリップのサイズ、形状、質感、照明、背景の複雑さに変化があるため、小さなターゲット検出、境界の定位、視覚干渉に対する強靭性の評価に適しています。データセットはトレーニング、検証、テストのサブセットに分けられ、最終的なテストセットはパフォーマンス評価のみに使用されました。画像の分布は表1にまとめられています。

実装の詳細

再現性に必要な実装設定は 表2 にまとめられており、完全な手続きの詳細はプロトコルのデータ準備ステップおよびセクション5.2に記載されています。結果の解釈にあたり、報告されたすべての実験は材料表に記載された同じ入力解像度、ハードウェア環境、評価条件を用いていました 報告値はシード=42を用いた単一の実行で選択された検証ダイスチェックポイントに基づいているため、結果は平均化されたクロスバリデーション結果ではなく、固定された実験分割下のパフォーマンスとして解釈されるべきです。

評価指標

セグメンテーション性能は、ダイス係数、和節の交差、ピクセルレベルの精度、推論速度を用いて評価されました。ダイス係数と交差点(Intersection over Union)は、予測されたマスクと専門家による注釈付きポリープ領域の一致を直接反映するため、主要な重なりに基づく指標として用いられました。大腸内視鏡画像には大きな背景領域が含まれていることが多いため、ピクセル単位の精度は補助的な指標として報告されました。推論速度はフレーム毎秒で報告され、モデルが実用的な計算効率を維持しつつセグメンテーションの品質を向上させるかどうかを評価するために含まれました。

既存手法との比較
PWD-Netの挙動と有効性を示すために、5つの代表的なポリープ分割手法を比較します:CBSA(チャネル強化空間注意ネットワーク)34、FSSA(特徴共有空間注意ネットワーク)、MSF(マルチスケール融合ネットワーク)、Pinwheel-Conv(注意や融合モジュールなしのピンホイール畳み込みベースライン)、およびPolaLinear(偏光線形注意ネットワーク)。すべての比較手法は公式に公開されたソースコードを使用して再実装され、同じKvasir-SEGトレーニングセット(800画像)上で同一の前処理、入力解像度(352×352)、評価設定のもとで訓練され、公正な比較が確保されています。 表3は テストセットの定量的結果を示しています。

表3に示されているように、PWD-NetはDice係数0.865、IoUは0.765であり、次善法(CBSA)と比較してDiceで1.8%、IoUが4.8%の改善を示しています。特にPWD-Netは910万のパラメータでこれを達成しており、CBSAの1840万と比べて良好な効率を示しています。PolaLinearとPinwheel-Convはそれぞれ79FPSと72FPSとより高速な推論速度を提供しますが、セグメンテーション精度は明らかに低く、PWD-Netは評価データセットにおいて精度と計算コストのバランスが妥当であることを示唆しています。定性的セグメンテーションの挙動を示すために、小さなポリープ、大きなポリープ、複雑な背景、ぼやけた境界をカバーする5つの代表的なテストサンプルを選び、視覚的比較を行います。図5は、選ばれた4つの比較手法(CBSA、FSSA、MSF、PD-Net)のセグメンテーション結果と、グラウンドトゥルースを示している。各予測列には対応するメソッド名が付けられています。Pinwheel-ConvとPolaLinearは、量的性能が大幅に低いため、視覚的明瞭さのためこの図から除外されています。したがって、この図は表3で比較された方法の一部を代表しています。

図5に示すように、小ポリプのシナリオ(第1・5行)ではFSSAとMSFが検出漏れを示しますが、PWD-Netはより完全にターゲットを捉えます。大きなポリープのシナリオ(2列目および3行目)では、CBSAとFSSAが目立つ境界不規則性を生み出し、PWD-Netはより滑らかな境界を生成します。ぼやけた境界シナリオ(4行目)では、PWD-Netはデュアルアテンションメカニズムを通じて背景雑音の効果的な抑制を示しています。

アブレーション研究
PWD-Netにおける各コアコンポーネントの貢献度を分析するために、体系的なアブレーション研究が実施されます。ResNet-50を基盤モデルとして用い、Pinwheel畳み込みモジュール(Pinwheel)、デュアルアテンションメカニズム(Dual-Attn)、マルチスケール特徴融合(MSF)モジュールが段階的に組み込まれています。 表4は 定量的結果をまとめたものです。

表4の主な発見は以下のようにまとめられます。まず、任意の単一のモジュールを追加するとベースラインモデルの性能が向上します。デュアルアテンションメカニズムは最も顕著な効果をもたらし(ダイス:+2.0%、IoU:+2.7%)、適応ノイズ抑制の効果を支持しています。Pinwheel畳み込みモジュールはDiceで1.6%の改善をもたらし、不規則なポリプ形状に対する多方向特徴抽出の利点を示しています。次に、ピンホイール畳み込みとデュアルアテンション機構を組み合わせることで、Dice = 0.858、IoU = 0.748まで性能がさらに向上し、両モジュール間の補完性を示唆しています。最後に、3つのモジュールすべてを統合した完全なPWD-Netは、基準と比較してそれぞれ3.3%と6.0%の改善を示し、最良の観測性能(Dice = 0.865、IoU = 0.765)を達成し、このデータセットにおける各提案コンポーネントの貢献を示しています。

トレーニングプロセス解析
PWD-Netのトレーニングダイナミクスと収束特性を示すために、主要なパフォーマンス指標が50のトレーニングエポックにわたって記録・可視化されています。 図6 は、訓練中の損失関数、ダイス係数、IoU、精度の変動を示しています。

図6(a)に示されているように、トレーニング損失と検証損失は最初の10エポックで急速に減少し、その後徐々に安定します。検証損失は訓練損失よりやや高いままですが、両曲線は小さなギャップで一貫した傾向をたどっており、モデルが深刻な過学習を経験していないことを示しています。図6(b)は、ダイス係数が初期の訓練段階で急激に上昇し、約30回目の時代で収束し、0.86以上に安定することを示しています。図6(c)のIoU曲線も同様の成長傾向を示し、訓練後期で約0.765に達します。図6(d)は、94%を超える精度が収束していることを示しています。中期および後期の学習段階における安定した検証傾向は、採用されたデータ拡張戦略とコサインアニーリングスケジュールがこのデータセットの過学習の緩和に寄与していることを示唆しています。

ポリプサイズを超えたパフォーマンス
異なる臨床シナリオでのPWD-Netの適用可能性をさらに評価するため、検査セット(100枚の画像)は、ポリープ面積と画像総面積の比率に基づいて3つのカテゴリーに分けられています:小さなポリープ(< 5%)、中型ポリープ(5%–30%)、大型ポリープ(> 30%)です。この分類は、ポリプスケールが分節の難易度に与える影響を反映しています。 表5は 各カテゴリーの定量的パフォーマンスを示しています。 表5に示されているように、PWD-Netは中型ポリープカテゴリーで最も優れた性能を達成しています(Dice = 0.882、IoU = 0.790)。これはこのカテゴリーの大きな表現(100枚中54枚)と一致しています。大型ポリープでの性能は同等の水準で維持されています(Dice = 0.861、IoU = 0.760)。小さなポリプでの性能は比較的低く(Dice = 0.812、IoU = 0.685)、主に小さなターゲットが画像の小さな割合を占め、境界情報が少ない背景雑音に弱いためです。

これらの結果は、Pinwheel畳み込みモジュールの多方向特徴捕捉能力とDual-Attentionメカニズムの空間的定位能力が、評価対象テストセット上の異なるポリップスケール間で合理的なセグメンテーション品質を維持することに寄与していることを示唆しています。

figure-results-1
図1:PWD-Netモデルの枠組み。 ピンホイール畳み込みとデュアルアテンション(PWD-Net)に基づく提案されたポリープセグメンテーションネットワークの全体的な構造的枠組みで、エンコーダー(ResNet-50)、ボトルネック(PCM)、DAM強化スキップ接続、MSFデコーダ、そして大腸ポリープセグメンテーションの出力生成を示しています。 この図の拡大版はこちらをクリックしてご覧ください。

figure-results-2
図2:PWD-Netの全体的なアーキテクチャフローチャート。 PWD-Netアーキテクチャ全体の詳細なフローチャートで、5段階のResNet-50エンコーダ、PCMボトルネック、DAMスキップ接続、マルチスケールフィーチャーフュージョンデコーダ、最終予測生成を示しています。 この図の拡大版はこちらをクリックしてご覧ください。

figure-results-3
図3:ピンホイール畳み込みモジュールの回路図。 ピンホイール畳み込みモジュールの構造および運用回路図。多角度回転畳み込みカーネル、双線形補間による回転、チャネル連結、1×1畳み込み集約の実証。 この図の拡大版はこちらをクリックしてご覧ください。

figure-results-4
図4:デュアルアテンションメカニズムの構造図。 DAMのアーキテクチャ図で、並列チャネル注意分岐(MLPのグローバル平均プー→リング、減少比r = 16 → シグモイド)と空間注意分枝(チャネルごとのプーリング、7×7畳み込み→シグモイド→)、続いて学習可能な係数αとβの重み付き融合を示しています。 この図の拡大版はこちらをクリックしてください。

figure-results-5
図5:セグメンテーション結果の定性比較。 各行はテストサンプルを表しています。左から右へ:入力画像、Ground Truth、CBSA、FSSA、MSF、そしてPWD-Net(私たちのもの)。Pinwheel-ConvとPolaLinearは視覚的明瞭さのためこの図から省略されています。完全な定量的比較については 表3 を参照してください。 この図の拡大版はこちらをクリックしてご覧ください。

figure-results-6
図6:50エポックにわたるPWD-Netのトレーニング曲線。 (a) トレーニングおよび検証損失。(b) サイコロ係数。(c) 連合交差点(IoU)(d) ピクセル単位の精度。 この図の拡大版はこちらをクリックしてご覧ください。

トレーニングサブセットサンプル数比率
鉄道セット80080%
検証セット10010%
テストセット10010%
トータルセット1000100%

表1:データセット統計。Kvasir-SEGデータセットの分割分布(合計1,000枚)は、訓練、検証、テストのサブセットに割り当てられた画像数と割合を示しています(ランダムシード=42)。

カテゴリーパラメータ項目パラメータ設定
ディープラーニングフレームワークフレームワークパイトーチ
ハードウェア環境GPUNVIDIA テスラ P100
加速法GPUアクセラレーションCUDA
入力設定入力画像サイズ352×352
画像フォーマット画像フォーマットRGB画像
オプティマイザーオプティマイザーアダム
初期学習率初期のLR1 × 10⁻4
バッチサイズバッチサイズ16
訓練時代時代50
損失関数損失関数ダイス損失 + BCE

表2:実験パラメータ設定。PWD-Netのトレーニングおよび評価のための実験的パラメータ設定。詳細な実装手順については、データ準備の手順およびプロトコルのセクション5.2を参照してください。

方法サイコロ ↑IoU ↑正確さ ↑パラメータ (M) ↓FPS ↑
CBSA0.84660.7170.932518.436
FSSA0.71090.5510.90129.861
MSF0.73370.5850.908611.554
ピンホイール・コンヴ0.80070.67420.94017.972
PolaLinear(ポラリニア)0.72130.57070.91136.679
PWD-Net(我々のもの)0.8650.76510.94789.163

表3:定量比較結果。 PWD-NetとKvasir-SEGテストセット上の5つの既存のポリープ分割法(画像100枚)の定量比較。すべての手法は、同一のデータ分割、前処理、入力解像度(352×352)で評価されます。↑は高いほど良いことを示します。↓は低い方が良いことを示します。*でマークされた方法は、元の論文から引用された結果を示し、再実装されたものではありません。

構成ピンホイールデュアルアテンMSFサイコロ ↑IoU ↑
基準×××0.8320.705
+ ピンホイール××0.8480.725
+ デュアルアテン××0.8520.732
+ MSF××0.8440.72
+ ピンホイール + デュアルアテン×0.8580.748
フル(PWD-Net)0.8650.765

表4:アブレーション検査結果。Kvasir-SEGテストセットでのアブレーション研究結果は、Pinwheel畳み込みモジュール(Pinwheel)、Dual-Attentionメカニズム(Dual-Attn)、およびマルチスケール特徴融合(MSF)がベースラインResNet-50エンコーダに段階的に寄与していることを示しました。

ポリープ型番号サイコロ ↑IoU ↑
小さなポリープ(< 5%)210.8120.685
中ポリープ(5%–30%)540.8820.79
大きなポリープ(> 30%)250.8610.76

表5:異なるポリープタイプに対するPWD-Netの性能。Kvasir-SEGテストセット内の異なるポリープサイズカテゴリーに対するPWD-Netの性能(100枚画像)。ポリープの大きさは、ポリープ面積と画像総面積の比率によって定義されます。

補足ファイル: PWD-Netフレームワークの実装を含む圧縮アーカイブ。model.py ファイルには、ピンホイール畳み込みモジュール(PCM)とデュアルアテンション機構(DAM)を用いたネットワークアーキテクチャの定義、データロードパイプライン、損失関数、訓練手順の実装、テストデータセットのモデル推論と評価 test.py、必要なPythonライブラリおよび対応するバージョンの一覧 train.py requirements.txtが含まれています。このファイルをダウンロードするには、こちらをクリックしてください。

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

PWD-Netプロトコルのいくつかの設計選択は、信頼性の高いセグメンテーション結果を得るために重要であり、実装時に細心の注意を払う必要があります。まず、エンコーダバックボーンの選択と初期化が収束挙動や最終性能に直接影響します。このプロトコルはImageNet上で事前学習されたResNet-50エンコーダを採用しており、低レベルおよび中間レベルの機能初期化を堅牢な提供します。これは、利用可能な訓練データが限られている医療画像セグメンテーションタスク(本研究では800枚の画像)において特に重要です。すべてのエンコーダ層を凍結するのではなく微調整することで、ネットワークは事前に学習済みの特徴を粘膜テクスチャや鏡面反射など大腸内視鏡画像の特定の特性に適応させることができます。次に、各コアモジュールのアーキテクチャ内での配置は意図的です。ピンホイール畳み込みモジュール(PCM)は、空間分解能が最も低いが意味情報が最も豊富なボトルネックに位置し、過度な計算コストなしにグローバル幾何学的パターンを効率的にキャプチャすることを可能にします。デュアルアテンション機構(DAM)はデコーダ内ではなくスキップ接続部に組み込まれており、特徴がデコーダに送信される前に背景雑音を抑制し、汚染された特徴が融合段階を通過するのを防ぎます。アブレーション研究(表4)はこの設計を支持しており、DAMが個別の性能向上(Dice: +2.0%)を最も大きく寄与しており、特徴パイプラインにおける早期ノイズ抑制の重要性が確認されています。第三に、ハイブリッド損失関数(0.5 ·BCE + 0.5 ·Dice)はピクセルレベルの分類精度と領域レベルのオーバーラップ最適化のバランスを取っています。この組み合わせは、前景と背景のクラス不均衡がよく見られるポリープの分割において特に重要です。等重み付け(λ = 0.5)がデフォルトとして採用されます。異なるクラス分布を持つデータセットでは、この比率の調整が必要になる場合があります(下記のトラブルシューティング参照)。

改造とトラブルシューティング
以下の修正およびトラブルシューティングガイドラインは、プロトコルを異なる実験環境に適応させるためのものです。異なる画像解像度やポリップサイズ分布を持つデータセットにプロトコルを適用する場合、入力解像度(352 x 352)の調整が必要になることがあります。入力サイズが大きいことは、メモリ消費の増加と推論速度の低下を伴いますが、小さなポリープ検出を改善する可能性があります。訓練損失が50エポック以内に収束しない場合は、初期学習率を5×10⁻5に短縮するか、コサインアニーリングサイクルの長さを延長することを検討してください。もしモデルが重度の鏡面反射や粘膜褶皺のある領域で高い偽陽性率を示す場合、Dice損失成分の重み(例:BCEではλ = 0.4、Diceでは0.6)を増やすことで、ピクセルレベルの精度を犠牲にして境界精度を向上させる可能性があります。逆に、モデルが小さなポリープを下に分割している場合は、BCEの重みを増やすことが助けになるかもしれません。PCMの回転角数(現在は8つ、0°から315°まで45°刻み)は、方向性のカバレッジと計算コストのバランスを表しています。4角度(0°、90°、180°、270°)に縮小すると計算量は減少しますが、斜めポリープ境界に対する感度は低下する可能性があります。DAMのチャネル注意分岐における還元比r = 16は、以前のスクイーズ・励起ネットワーク32で確立された慣例に従います。比率が小さい(例:r = 8)はモデル容量を増加させますが、小規模なデータセットでは過学習を引き起こす可能性があります。Kvasir-SEGを大幅に上回るデータセットについては、バッチサイズと訓練エポックを拡大し、検証指標を監視して適切な終了点を特定しましょう。

代替手法に対する重要性
PWD-Netアーキテクチャは、既存のアプローチの特定の限界を3つの補完モジュールを通じて解決しています。標準的な正方形畳み込みカーネルに依存する手法と比較すると、PCMは多角度回転カーネルを通じて方向感度を提供し、大腸ポリープの不規則で多様な形態への適応性を向上させます。単一次元の注意メカニズム(例:スクイーズ・エキサイテーションネットワークにおけるチャネルのみの注意33)と比較して、DAMはチャネル重要性と空間的重要性を共同でモデル化し、複雑な大腸内視鏡環境におけるより包括的なノイズ抑制を提供します。TransUNet34 やPolyp-PVT35のようなトランスフォーマーベースのアーキテクチャと比較すると、これらは強力なグローバルモデリングを提供しますが計算コストは高いですが、PWD-Netは比較的コンパクトなモデルサイズ(910万パラメータ)と実用的な推論速度(63 FPS)で競争力のある性能を達成しており、 表3に記載されています。

本研究で示された比較(表3)は、同一のデータ分割、前処理、評価プロトコルを用いた制御条件下で実施されていることに注意が必要です。観察された性能の違いは本研究で使用されたKvasir-SEGテストセット(100画像)に特有であり、他のデータセットや臨床環境に直接一般化できない場合があります。標準化された多データセットベンチマークの下で、確立されたベースライン(例:PraNet36、ResUNet++37)を取り入れたより広範な比較は、エビデンスをさらに強化し、今後の研究で計画されています。ポリップセグメンテーション38 のデュアルエンコーダ-デコーダアーキテクチャに関する最近の研究は、並列エンコーディングおよびデコード経路の可能性を示しています。PWD-Netのアーキテクチャは、単一のエンコーダ・デコーダパイプライン内で回転幾何学的モデリングとデュアルアテンションフィルタリングに重点を置き、補完的な設計哲学を表しています。

この研究にはいくつかの重要な限界があることを認めておくべきです。まず、実験範囲に関しては、本研究はKvasir-SEGデータセットのみで、800の訓練、100の検証、100のテスト画像の単一ランダムスプリットで結果を報告しています。テストセットのサイズ(画像100枚)は比較的小さく、繰り返し実験やクロスバリデーションなしに単一のトレーニングランのみが報告されます。したがって、報告されたパフォーマンス指標は特定のデータ分割に関連する分散の影響を受けることがあります。今後の研究では、kフォールドクロスバリデーションや複数のランダムスプリットと標準偏差報告を取り入れ、より堅牢な性能推定を提供すべきです。次に、PCMは多角度カーネル回転と集約による追加の計算オーバーヘッドを導入します。全体のモデルはコンパクト(910万パラメータ)のままですが、臨床環境でのリソース制約のあるデバイスへの展開には、知識抽出やモデル剪定などの技術によるさらなる最適化が必要となる場合があります。第三に、モデルは静止画像のみで訓練・評価されるのに対し、臨床大腸内視鏡はポリープの外観、大きさ、視点が連続したフレーム間で動的に変化するリアルタイムのビデオストリームを用いています。63 FPSの推論速度はリアルタイムフレームレートと互換性がありますが、この指標だけでは臨床的検証にはなりません。臨床準備の主張を行うには、内視鏡ビデオデータ、リーダー研究、および下流の臨床評価項目解析に対する前向き検証が必要です。現在の研究は臨床的に検証されたシステムではなく、方法論的貢献として理解されるべきです。

第四に、AI支援ポリープセグメンテーションの臨床翻訳経路は、セグメンテーションの精度をはるかに超えています。最近のレビューでは、高度な画像診断および解析ツールは病変分類、病期、治療計画など、より広範な内腔内ワークフローに統合される必要があることが強調されています。現在のプロトコルは二元ポリープの断片にのみ焦点を当てており、臨床判断に不可欠な病理学的42分類(例:腺腫性ポリープと過可塑性ポリープ)や悪性リスク評価には対応していません。第五に、本研究で使用されたデータセットは主に成人の大腸内視鏡検査から得られています。小児ポリープ、炎症性腸疾患に関連するポリープ、その他の特殊病理学的タイプに関するデータは記載されていません。これらの集団に対するモデルの一般化可能性はまだ検証されていません。第六に、各モジュールの機能を示すためにアブレーション実験や定性的可視化が提供されていますが、モデルの解釈可能性は限られています。ディープラーニングモデルの意思決定プロセスは完全に透明ではなく、臨床医の信頼や採用に影響を与える可能性があります。今後の研究では、勾配ベースの可視化技術を取り入れ、モデル予測のより直感的な説明を提供する可能性があります。

上記の限界にもかかわらず、PWD-Netプロトコルはポリープ分割の再現可能な枠組みを提供し、さらなる開発の基盤となる可能性があります。考えられる方向性には、時間モデリング技術を取り入れてビデオベースの大腸内視鏡解析にモデルを拡張すること、エンドツーエンドの分断および病理的型分けのための分類部門の追加;評価をより大規模かつ多様な多中心データセットに拡大すること、また、AI支援画像解析が主要な実現技術としてますます認識されている内腔型ロボットプラットフォームへの統合を探る44,45。このプロトコルに付属する補助コードパッケージは、他の研究グループによる手法の再現と適応を促進することを目的としています。

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

著者たちは何も明かすことはありません。

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究は中国国家重点研究開発プログラム(プログラム番号2022YFC3500200および2022YFC3500204)によって資金提供を受けました。

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
アダム・オプティマイザーPyTorchに含まれている
アルブネテーションアルブメンテーションズ・チームv1.0+データ拡張ライブラリ
CUDAツールキットNVIDIAv11.3+GPUアクセラレーション
Kvasir-SEGデータセットシミュラメットhttps://datasets.simula.no/kvasir-seg/
MatplotlibMatplotlibコミュニティv3.4+トレーニング曲線の可視化
NumPyNumPyコミュニティv1.21+数値計算
NVIDIA テスラ P100NVIDIAP100-PCIE-16GBトレーニングと推論のためのGPU
OpenCVOpenCVコミュニティv4.5+画像前処理
パイソンPythonソフトウェア財団v3.8+プログラミング言語
パイトーチメタプラットフォームv1.12+ディープラーニングフレームワーク
ResNet-50事前訓練重りパイトーチ・モデルズーImageNet-1K 事前学習済み
Ubuntu(ウUbuntu正典18.04+オペレーティングシステム

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

MedicinePolyp segmentationPinwheel convolutionDual attention mechanismMulti scale feature fusiondeep learningMedical image processingPrecancerous lesion diagnosis

Related Articles