Сеть сегментации полипов на основе свёртки с вертушкой и двойного внимания для диагностики колоректальных предраковых поражений

Ning Du; Xinqi Liu; Li Ji; Chuijie Wang

doi:10.3791/71178

Method Article

Сеть сегментации полипов на основе свёртки с вертушкой и двойного внимания для диагностики колоректальных предраковых поражений

DOI:

10.3791/71178

⸱

June 26th, 2026

Ning Du*¹ , Xinqi Liu*¹ , Li Ji² , Chuijie Wang³

¹National Cancer Center/National Clinical Research Center for Cancer/Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, ²Xinglin College of Liaoning University of Traditional Chinese Medicine, ³Liaoning University of Traditional Chinese Medicine Affiliated Hospital

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Этот протокол реализует U-образную сеть глубокого обучения, интегрирующую свёртку с вертушками, двойное внимание и многомасштабное слияние для сегментирования колоректальных полипов.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Точная сегментация колоректальных полипов крайне важна для ранней профилактики и диагностики колоректального рака. Однако из-за высокой гетерогенности полипов по форме, размеру и текстуре, а также сложности кишечной среды (такой как складки, зеркальные отражения и каловые остатки) существующие методы всё ещё сталкиваются с серьёзными трудностями в локализации границ и обнаружении мелких полипов. Для решения этих проблем в данной статье предлагается сеть сегментации полипов на основе свёртки с вертушками и двойного внимания (PWD-Net). Предлагаемая сеть использует U-образную архитектуру энкодер-декодер, где в качестве энкодера используется предварительно обученный ResNet для извлечения многоуровневых локальных признаков. В частности, модуль свёртки Вертушки (PCM) вводится на узком уровне для захвата глобальной геометрической структуры и многонаправленной контекстуальной информации полипов через ядра свёртки с несколькими углом вращения. Механизм двойного внимания (DAM), интегрирующий внимание канала и пространственное внимание, предназначен для адаптивного подавления фонового шума и усиления особенностей области полипов. Кроме того, применяется стратегия многомасштабного синтеза признаков (MSF) для объединения глубокой семантической информации с поверхностными граничными деталями, обеспечивая как полноту, так и точность результатов сегментации. Эксперименты, проведённые на наборах данных Kvasir-SEG и CVC-ClinicDB, показывают, что PWD-Net достигает средних коэффициентов кубиков 0,865 и 0,944, а также показателей IoU 0,765 и 0,892 соответственно, значительно превосходя существующие современные методы. Исследования абляции подтверждают эффективность каждого модуля, а кросс-наборы подтверждают высокую способность модели к обобщению. Это исследование предоставляет высокоточное и надёжное решение для клинической сегментации полипов, предлагая значительную ценность для ранней диагностики колоректальных предраковых поражений и поддерживая компьютерное вмешательство.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Колоректальный рак — одна из самых распространённых злокачественных опухолей в мире, с постоянно высокими показателями заболеваемости и смертности. Исследования показали, что большинство колоректальных раков развиваются из-за аденоматозных полипов, процесс, который обычно занимает 10–15 лет, что обеспечивает ценное временное окно для раннего выявления и вмешательства. Повышение уровня обнаружения аденомы (ADR) на 1% может снизить риск колоректального рака примерно на 3%, значительно снижая смертность^{пациентов 1}. Колоноскопия, считающаяся золотым стандартом скрининга колоректального рака, позволяет напрямую удалять полипы во время обследования, что эффективно снижает заболеваемость и смертность от рака.

Однако традиционная колоноскопия сильно зависит от опыта и уровня подготовки эндоскопистов. Такие факторы, как субъективное суждение, зрительная усталость и отвлечение, могут привести к проценту промахов от 20% до 30%, что напрямую влияет на эффективность^{скрининга 2}. Поэтому разработка систем автоматизированного обнаружения (CAD) для автоматической сегментации колоректальных полипов имеет большое значение для улучшения ADR и сокращения пропущенных диагнозов. Недавние клинические исследования ещё больше подчеркнули интерес к интеграции искусственного интеллекта в рабочие процессы оценки эндоскопических поражений, подчёркивая необходимость надёжных и воспроизводимых методов^{сегментации 3}.

В последние годы глубокое обучение достигло значительных успехов в анализе медицинских изображений, особенно в сверточных нейронных сетях (CNN), которые демонстрируют сильные возможности в извлечении и представлении признаков для задач сегментации^{изображений 4}. Как классическая модель сегментации медицинских изображений, U-Net использует архитектуру симметричного энкодер-декодера и пропускные соединения для достижения точной сегментации на уровне пикселей, став эталоном в этой^{области.} Опираясь на U-Net, было предложено множество улучшенных архитектур для решения сложных задач сегментации медицинских изображений. UNet++ сокращает семантический разрыв между отображением признаков кодировщика и декодера, вводя вложенные и плотные пропускающие^{соединения 6}. ResUNet++ интегрирует остаточные блоки, модули сжатия и возбуждения, расширенные свёртки и механизмы внимания, обеспечивая высокую производительность в сегментации^{полипов 7}. U^2-Net использует двухуровневую вложенную U-образную структуру для сбора многомасштабной информации о^{признаках 8}. В последнее время была предложена сеть сегментации глубоких полипов на базе двойного энкодер-декодер, использующая параллельное кодирование и декодирование путей для дальнейшего повышения точности^{сегментации 9}.

В то же время внедрение механизмов внимания открывает новые решения для усиления функций функций и подавления шума. Attention U-Net использует ворота внимания, чтобы сосредоточиться на целевых регионах, подавляя при этом нерелевантную фоновую^{информацию 10}. Сеть двойного внимания (DANet) адаптивно взвешивает признаки как по каналу, так и по^{пространственному измерениям 11}, улучшая восприятие критически важных признаков. Triple Attention Networks (TANet) дополнительно повышают производительность сегментации за счёт адаптивного выбора многомасштабных функций¹².

С успехом архитектур трансформеров в обработке естественного языка и компьютерном^{зрении 13} исследователи начали изучать их применение в сегментации медицинских изображений. TransUNet первым использовал трансформер в качестве энкодера для эффективного моделирования дальних^{зависимостей 14}. Swin-UNet использует чисто трансформерскую архитектуру и обеспечивает эффективную глобальную агрегацию информации с помощью механизма сдвигового^{окна 15}. UTNet предлагает гибридную архитектуру, которая объединяет локальную возможность извлечения признаков CNN с глобальными возможностями моделирования^{Transformers 16}.

В области сегментации полипов Polyp-PVT использует пирамидальный трансформер для захвата многомасштабной глобальной семантической^{информации 17}, тогда как многомасштабный вложенный UNet улучшает контекстное понимание за счёт интеграции^{Transformers 18}. Недавние исследования также изучали стратегии обучения с отрицательной корреляцией для междоменной сегментации^{полипов 19}, усиления сегментации с дополнением по^{Гомперцу 20} и архитектуры, основанные на внимание, с использованием пограничного^{руководства 21}. Хотя эти подходы в некоторой степени улучшают эффективность сегментации, сегментация полипов всё ещё сталкивается с рядом проблем. Во-первых, полипы демонстрируют высокую гетерогенность по морфологии, размеру и текстуре — от микрополипов размером меньше 5 мм до крупных полипов свыше 30 мм, с формами от круглых и эллиптических до сильно неправильных. Во-вторых, среда кишечника сложна и изменчива: слизистые складки, зеркальные отражения, каловые остатки и пищевые остатки создают сильные фоновые помехи. В-третьих, многие полипы имеют размытые границы, могут быть частично закрыты складками или погружаться в кишечные жидкости, что делает точную локализацию границ крайне^{сложной 22}.

Существующие методы по-прежнему имеют явные ограничения в решении этих проблем. Традиционные CNN эффективно извлекают локальные текстурные и крайевые особенности; Однако ядра с фиксированной квадратной свёрткой плохо подходят для захвата различных геометрических форм²³, особенно для сильно неправильных полипов, и не могут эффективно моделировать многонаправленные геометрические особенности. Методы на основе трансформаторов могут моделировать глобальные зависимости, но менее эффективны в захвате мелких локальных деталей и информации о границах. Кроме того, их высокая вычислительная сложность делает их менее подходящими для клинических приложений в реальном^{времени 24}. Современные подходы к сегментации полипов, такие как PraNet, использующий модули обратного внимания для уточнения ключевых^{областей 25}, каскад внимания, ориентированные на границы, улучшающие экстракцию граничных^{признаков 26}, и CAFE-Net, объединяющий функции энкодера и декодера через механизмы перекрёстного внимания²⁷, по-прежнему сталкиваются с недостаточным представлением признаков и неточной локализацией границ при работе с малыми^{полипами 28}, размытые границы и сложные предыстории. Кроме того, большинство методов игнорируют геометрическую морфологию и не используют многонаправленную контекстную информацию, что приводит к неоптимальной сегментации неправильной формы полипов.

В заключение, современные методы на базе CNN не способны захватывать многонаправленные геометрические признаки из-за зависимости от ядра с фиксированной квадратной свёрткой. Подходы на основе трансформаторов предлагают глобальное моделирование, но жертвуют локальной точностью границ и требуют высоких вычислительных затрат. В то же время существующие стратегии слияния с повышенным вниманием и многомасштабного синтеза не были совместно оптимизированы в единой структуре, специально разработанной для сегментации^{полипов 29}. Эти пробелы мотивируют разработку метода, который одновременно охватывает геометрическое моделирование признаков, адаптивное шумоподавление и межмасштабную интеграцию признаков.

Для решения этих проблем этот протокол представляет сеть сегментации полипов, основанную на свертке Pinwheel и Dual Attention (PWD-Net). Предлагаемая сеть интегрирует геометрическое моделирование признаков, многомерное усиление внимания и многомасштабное слияние признаков, что позволяет точно сегментировать сложные полипы. Основные вклады этой работы обобщены следующим образом: модуль свёртки с вертушками (PCM), вдохновлённый структурой вертушки, предлагается новая конструкция ядра с вращающейся свёрткой, которая фиксирует многонаправленные геометрические особенности полипов посредством операций свёртки под несколькими углами (0°, 45°, 90°, 135°, 180°, 225°, 270° и 315°). Этот модуль заменяет традиционный слой свёртки на стадии узкого места, обеспечивая эффективное восприятие различных ориентаций краёв и значительно улучшая представление неправильной формы полипов. Механизм двойного внимания (DAM) устраняет фоновые шумы, такие как складки, отражения и калдыки кала на изображениях колоноскопии. Разработан модуль двойного внимания, интегрирующий внимание канала и пространственное внимание. Встроенный в пропускные соединения, этот модуль адаптивно подавляет фоновые интерференции и усиливает реакцию признаков в областях полипов, совместно определяя «что» важно (размер канала) и «место» расположения цели (пространственное измерение), обеспечивая, чтобы в последующее слияние участвовали только более тонкие элементы. Многомасштабная стратегия слияния признаков (MSF) сохраняет как глубокую семантическую информацию, так и поверхностные граничные детали с помощью иерархического механизма, введённого в декодере. Постепенно интегрируя функции энкодера с улучшенными DAM с апсемплированными функциями декодера, эта стратегия эффективно компенсирует потерю пространственных деталей, вызванную понижением дискретизации, обеспечивая точное обнаружение мелких полипов и точное определение границ.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В данном исследовании используются только общедоступные, анонимизированные наборы изображений колоноскопии (Kvasir-SEG). Новых данных о людях не собиралось. Одобрение институциональной этики и информированное согласие пациента не требовались, что подтверждается политикой институционального обзора для ретроспективного анализа деидентифицированных публичных наборов данных.

1. Подготовка данных

Скачайте набор данных Kvasir-SEG из официального репозитория33 (https://datasets.simula.no/kvasir-seg/). Набор данных содержит 1000 изображений полипов с соответствующими масками на уровне пикселей на уровне истины на земле.
Случайным образом разделите наборы данных на обучающие (800 изображений), валидационные (100 изображений) и тестовые (100 изображений) с соотношением 8:1:1 с использованием фиксированного случайного сида (seed = 42). Проверьте, не перекрываются ли изображения между тремя подмножествами, чтобы предотвратить утечку данных.
Измените размер всех изображений и соответствующих масок до 352 x 352 пикселей с использованием билинейной интерполяции для изображений и интерполяции для самых близких соседей для масок.
Нормализуйте значения пикселей до [0, 1], деля на 255, затем примените среднее вычитание по каналам ImageNet (0,485, 0,456, 0,406) и стандартную нормализацию отклонения (0,229, 0,224, 0,225).
Примените следующие преобразования дополнения только к обучающему набору (не к валидационным или тестовым наборам): случайный горизонтальный переворот (вероятность = 0,5); случайный вертикальный переворот (вероятность = 0,5); случайное вращение (диапазон: от −30° до +30°, вероятность = 0,5); Случайное многомасштабное изменение размера (коэффициент масштаба: 0,75–1,25, вероятность = 0,5)
ПРИМЕЧАНИЕ: Примените идентичные пространственные преобразования как к изображению, так и к соответствующей маске для поддержания выравнивания. Проверьте корректность аугментации, визуально осмотрев несколько пар аугментированного изображения–маска перед началом обучения.

2. Общая архитектура

ПРИМЕЧАНИЕ: См. рисунок 1 для макроуровневого энкодер-декодера основы PWD-Net и рисунок 2 для интеграции и взаимодействия основных модулей в потоке признаков. Общая архитектура выполнена по схеме U-образного энкодера-декодера для обработки изменений масштаба полипов и фоновых интерференций в изображениях колоноскопии.

Магистраль и путь кодирования (рисунок 1)
1. Используйте ResNet-50, предварительно обученный на ImageNet (полученный из официального зоопарка моделей PyTorch), в качестве основного энкодера30. Тонко настраивайте все слои энкодера во время обучения.
2. Подайте входное изображение колоноскопии (уменьшенное до 352 x 352 пикселей) через пять этапов остаточных сверточных блоков для извлечения иерархических признаков. Пространственное разрешение карт объектов постепенно понижается от до на пяти этапах, а размеры канала соответственно увеличиваются (64 → 128 → 256 → 512 → 1024).
3. В узком месте (самый глубокий слой энкодера) замените стандартный сверточный слой на модуль свёртки Pinwheel (PCM), описанный в разделе 3, чтобы захватить глобальную геометрическую морфологию и многонаправленную контекстную информацию с низким разрешением.
  ПРИМЕЧАНИЕ: Пять стадий энкодера соответствуют стандартным группам слоев ResNet-50: conv1, layer1, layer2, layer3 и layer4. Предварительно обученные веса обеспечивают надёжную инициализацию признаков низкого и среднего уровня, сокращая время сходимости на небольших медицинских наборах данных.
Ключевые компоненты и взаимодействие признаков (Рисунок 2 и Рисунок 3)
1. Примените механизм двойного внимания (DAM, описанный в разделе 4) к выходу каждого каскада энкодера перед передачей его на декодер через пропускные соединения. Этот этап адаптивно подавляет фоновый шум, создаваемый складками кишечника и зеркальными отражениями, одновременно усиливая реакцию признаков в областях полипов. Только отфильтрованные признаки передаются на соответствующий слой декодера.
2. В декодере постепенно восстанавливают пространственное разрешение с помощью билинейного апсэмплинга. На каждом слое декодера конкатенируйте апсэмплинговые элементы предыдущего этапа с усиленными DAM-энкодерами с тем же пространственным разрешением.
3. Примените два последовательных сверточных слоя (каждый из которых сопровождается пакетной нормализацией и активацией ReLU) для слияния многомасштабной информации. Это и есть стратегия многомасштабного синтеза признаков (MSF), описанная в разделе 5.
  ПРИМЕЧАНИЕ: Декодер переходит от глубоких к мелким слоям (этап 5 → стадия 1), обеспечивая эффективную интеграцию глубокой семантической локализации и детализации границ на каждом уровне.
Генерация выхода
1. Примените сверточный слой, а затем функцию активации Sigmoid к конечному выходу декодера для генерации маски предсказания.
2. Бинаризуйте маску предсказания с порогом 0,5, чтобы получить итоговый результат сегментации, где пиксели с предсказанной вероятностью ≥ 0,5 классифицируются как полипы, а оставшиеся пиксели — как фон.

3. Модуль свертки с вертушками (рисунок 3)

Модуль свёртки Pinwheel (PCM) заменяет стандартную свёртку узкого места для захвата многонаправленных геометрических особенностей полипов. Реализуйте этот модуль следующим образом:
1. Определите базовое ядро свёртки W размером 3 x 3 с C_в входных каналах и C_{на выходных} каналах.
2. Определим набор углов вращения Θ = {0°, 45°, 90°, ..., 315°}. Для каждого угла θ ∈ Θ генерируйте вращающееся ядро W_θ , применяя к W билинейное вращение на основе интерполяции. Все восемь вращающихся ядер имеют одинаковые базовые параметры; различается только пространственное расположение весов.
3. Для каждого угла θ вычислите направление-специфическое отображение объектов:
  
  где X — входная карта признаков.
4. Агрегируем восемь направлений отображений признаков попутным конкатенацией по каналу вдоль оси канала, получая тензор размерности (8 x_{C выход}) x H x W. Затем примените свёртку 1 x 1, чтобы уменьшить размер канала обратно до_{C out}, затем пакетную нормализацию и активацию ReLU³¹:
  
  ПРИМЕЧАНИЕ: Вращение и интерполяция выполняются на весах ядра, а не на входной карте признаков. Такая конструкция позволяет эффективно использовать параметрически многонаправленное извлечение признаков без увеличения входного разрешения. В текущей реализации C_in = 1024 и C_out = 1024 на стадии узкого места, что соответствует размеру выходного канала слоя ResNet-50 4. Обратитесь к дополнительному пакету кода для полной реализации.

4. Механизм двойного внимания (рисунок 4)

ПРИМЕЧАНИЕ: Механизм двойного внимания (DAM) встроен в каждое пропускное соединение для подавления фонового шума и усиления особенностей области полипов как с точки зрения канала, так и пространственного измерения.

Внимание канала
Раздел внимания канала определяет, какие функциональные каналы наиболее информативны. При заданном входном признаке F ∈^{R C×H×W}:
1. Сжать пространственные измерения с помощью глобального среднего пула, чтобы получить дескриптор канала z ∈^{R C×1×1}.
2. Пропустите z через двухслойный MLP (полностью соединённые слои) с коэффициентом уменьшения r = 16. Первый слой уменьшает размерность с C до C/16 при активации ReLU; второй слой восстанавливает его с C/16 в C с активацией сигмовидной формы, чтобы получить вектор веса_{канала A c}:
  
  где δ обозначает ReLU, а σ — сигмоид.
Пространственное внимание
Ветка пространственного внимания определяет место, где целевые области таковы:
1. Примените как максимальное пулирование, так и среднее пулирование вдоль размера канала для генерации двух двумерных карт признаков размером 1 x H x W.
2. Соедините два отображения вдоль оси канала, чтобы получить тензор 2 x H x W. Примените сверточный слой размером 7 x 7 с последующим активацией сигмовидной формы, чтобы получить пространственное отображение веса A_s ∈ R^1×H×W:
Слияние признаков
1. Объедините выходы канала и пространственного внимания с входной особенностью посредством умножения по элементам:
  
  где α и β — это обучаемые коэффициенты баланса, оба инициализированы до 0,5 и обновляются совместно с параметрами сети с помощью оптимизации на основе градиента во время обучения.
  ПРИМЕЧАНИЕ: См. дополнительный пакет кода (dam_module.py) для полной реализации.

5. Многомасштабное слияние признаков

Примените стратегию многомасштабного синтеза признаков (MSF) в декодере для устранения пространственных потерь деталей в глубоких объектах. На каждом этапе декодера выполняйте следующее:
Увеличите карту признаков с предыдущего этапа декодера в 2 раза с помощью билинейной интерполяции.
Объедините апдискретируемые характеристики с DAM-усиленными энкодировочными функциями соответствующего пространственного разрешения вдоль оси канала.
Примените два последовательных сверточных слоя размером 3 x 3 (каждый сопровождается пакетной нормализацией и активацией^{ReLU 32}) для слияния конкатенированных признаков.
ПРИМЕЧАНИЕ: Это межуровневое слияние обеспечивает одновременное сохранение граничных деталей полипов (с помощью поверхностных признаков энкодера) и семантической локализации (обеспечиваемой глубокими признаками), что приводит к детализированным результатам сегментации.

6. Функция потери и конфигурация обучения

Функция потерь
1. Гибридная функция потерь L_total применяется для совместной оптимизации сети, устраняя повсеместный дисбаланс классов между передним и задним планом в сегментации полипов.
  Бинарные потери перекрестной энтропии (L_BCE) измеряют точность классификации на уровне пикселей:
  
  где N — общее число пикселей_{, y i} ∈ {0,1} — метка основной истинности, а ŷ_i ∈ [0,1] — предсказанная вероятность.
2. Потеря кубиков (L₎ количественно определяет сходство множеств между предсказанной и основной областью истинности:
  
  где ε — коэффициент сглаживания (установлен на 1 x 10⁻⁵), чтобы избежать деления на ноль.
  Установить λ = 0,5 для балансировки вкладов двух убыточных условий.
Конфигурация обучения
1. Инициализуйте энкодер с помощью ImageNet-предобученных весов ResNet-50. Инициализуйте все слои декодера, параметры PCM и DAM с помощью единообразной инициализации Kaiming.
2. Настройте оптимизатор и расписание обучения следующим образом. Используйте оптимизатор Адама с β₁ = 0,9 и β₂ = 0,999. Установите начальную скорость обучения на 1 x 10⁻⁴. Примените график обучения по косинусному отжигу с_{T max} = 50 и η_min = 1 x 10⁻⁶. Используйте размер партии 16 и обучайте модель для 50 эпох.
3. Обучайте модель для 50 эпох на обучающем наборе (800 изображений). В конце каждой эпохи оценивайте модель на валидационном наборе (100 изображений), используя коэффициент кубиков в качестве основной метрики мониторинга.
4. Сохраните контрольную точку модели, которая достигает максимального коэффициента кубика на валидационном наборе. Используйте эту контрольную точку как финальную модель для всех последующих оценок на тестовом наборе.
  ПРИМЕЧАНИЕ: Раннее прекращение не применяется явно. Стратегия выбора контрольной точки с лучшей валидацией и кубиками служит критерием выбора модели. Все эксперименты проводятся с использованием аппаратной и программной среды, указанной в Таблице материалов. Обучение для 50 эпох на 800 изображениях занимает примерно 2 часа в описанной конфигурации. Все опубликованные результаты получаются в результате одного обучающего запуска с использованием указанного случайного семена (seed = 42). Обратитесь к дополнительному пакету кода для полного обучающего сценария.

7. Псевдокод

Используйте Алгоритм 1 как полную карту рабочих процессов для PWD Net. Сопоставьте блоки PCM, DAM, основной архитектуры и обучающего конвейера в алгоритме с соответствующими файлами в дополнительном пакете кода.
Реализуйте блок PCM, показанный в строках 4–12. Определите ядро свёртки с основанием 3 x 3 и генерируйте восемь вращающихся ядер под координатами 0°, 45°, 90°, 135°, 180°, 225°, 270° и 315° с использованием билинейной интерполяции.
Сохраняйте одинаковые базовые параметры для всех вращаемых PCM-ядер. Для каждого угла вращения вычислите одну карту элементов, специфичную для конкретного направления.
Объедините восемь PCM-карт объектов вдоль размера канала. Примените свёртку 1 x 1, пакетную нормализацию и активацию ReLU для восстановления исходного размера канала.
Реализуйте блок DAM, показанный в строках 14–19. Примените глобальное среднее пулирование для генерации дескриптора канала, затем пропустите его через двухслойный MLP с коэффициентом редукции 16 для получения весов каналов.
Сгенерируйте карту пространственного внимания, применяя по каналам среднее пулирование и максимальное пулирование к входной функции. Соедините эти две карты и обработайте их с помощью свёртки 7 x 7, после чего следует активация сигмоидной формы.
Объедините канал DAM и выходы пространственного внимания с входной функцией с помощью умножения по элементам. Взвесьте две карты внимания с обучаемыми коэффициентами α и β, обе инициализованы до 0,5.
Постройте основную архитектуру PWD Net, показанную в строках 21–32. Пропустите входное изображение через пять этапов предварительно обученного кодера ResNet 50, чтобы получить e1 до e5, при этом пространственное разрешение уменьшается с H x W до H/32 x W/32.
Примените PCM к e5 в узком месте. Примените DAM к e1–e4 перед отправкой этих функций на декодер через пропускные соединения.
Декодировать карту объектов от глубоких до мелких слоёв. На каждом уровне декодера апсэмплируйте предыдущую функцию, объедините её с соответствующей улучшенной функцией DAM и примените DoubleConv для объединения признаков.
Генерируйте сегментационный выход с свёрткой 1 x 1, а затем активацией Sigmoid (Sigmoid Activation). Используйте полученную пиксельную вероятностную карту в качестве предсказанной маски.
Реализуйте тренировочный цикл, показанный в строках 34–39. В каждой эпохе пропустите прямое распространение через PWD Net и вычислите предсказанную маску.
Вычислите потери в тренировках как 0,5 x BCE потери плюс 0,5 x потеря кубиков. Обновите все изучаемые параметры с помощью оптимизатора Адама через обратное распространение.

Алгоритм 1: Сегментация полипов с ограниченным образованием (PWD-Net)
1: Ввод: Изображение колоноскопии I ∈ R^H×W×3
2: Результат: Сегментационная маска M ∈ {0,1}^(H×W)
3:
4: функция PCM(X) ▷ Модуль свёртки Вертушки
5: Определим базовое ядро W (3 x 3), углы Θ = {0°, 45°, ..., 315°}
6: для каждого θ ∈ Θ делают
7: W_θ ← БилинейныйВращать (W, θ) ▷ Вращать ядро
8: Y_θ ← Conv2d(X,_{W θ}) ▷ Особенности, специфичные для направления
9: конец для
10: Y_out ← ReLU(BN(Conv1 x 1(Concat({_{Y θ}})))) ▷ Aggregate
11: возвращение Y_{из аут}.
12: конечная функция
13:
14: функция DAM(F) ▷ Механизм двойного внимания
15: A_c ← Sigmoid(MLP(AvgPool(F))) ▷ Channel attention (r=16)
16: A_s ← Sigmoid(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Пространственное внимание
17: F' ← F ⊗ (α · _{A c} + β · A_s) ▷ Слияние с обучаемым α, β (init=0.5)
18: возвращение F'
19: конечная функция
20:
21: функция PWD-Net(I)
22: Энкодер: e₁,_{e 2},_{e 3}, e₄, e₅ ← ResNet50_Stages(I) ▷ 5-ступенчатый предобученный энкодер
23: Узкое место: b ← PCM(e₅) ▷ Применить PCM в узком месте
24: Пропуск соединений: s_i ← DAM(e_i) для i = 1, 2, 3, 4 ▷ Функции фильтр-энкодера
25: Декодер:
26: d₄ ← DoubleConv(Concat(Up(b), s₄))
27: d₃ ← DoubleConv(Concat(Up(d₄), s₃))
28: d₂ ← DoubleConv(Concat(Up(d₃), s₂))
29: d₁ ← DoubleConv(Concat(Up(d₂), s₁))
30: M ← Sigmoid(Conv1 x 1(d₁))
31: возвращение M
32: конечная функция
33:
34: Обучение:
35: для каждой эпохи делают
36: M̂ ← PWD-Net(I)
37: L ← 0,5 · BCE(M̂,_{M gt}) + 0,5 · DiceLoss(M̂,_{M gt}) ▷ λ = 0.5

38: Обновление параметров через обратное распространение (Adamоптимизирует r)
39: конец для

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Экспериментальная установка
Набор данных

Набор данных Kvasir SEG использовался для оценки сегментационного поведения PWD Net на изображениях колоноскопии с гетерогенными полипами. Набор данных содержит 1000-пиксельные аннотированные изображения полипов и включает вариации размера, формы, текстуры, освещения и сложности фона, что делает его подходящим для оценки обнаружения малых целей, локализации границ и устойчивости к визуальным помехам. Набор данных был разделён на учебные, валидационные и тестовые подмножества, а окончательный тестовый набор использовался только для оценки производительности. Распределение изображений обобщено в Таблице 1.

Детали реализации

Настройки реализации, необходимые для воспроизводимости, приведены в таблице 2 , а полные процедурные детали приведены в этапах подготовки данных и разделе 5.2 протокола. Для интерпретации результатов все представленные эксперименты использовали одинаковое входное разрешение, аппаратную среду и условия оценки, указанные в Таблице материалов. Указанные значения основаны на выбранной контрольной точке проверки кубиков из одного запуска с seed = 42, поэтому результаты следует интерпретировать как производительность при фиксированном экспериментальном разделе, а не как усредненные результаты перекрестной валидации.

Метрики оценки

Производительность сегментации оценивалась с помощью коэффициента кубиков, пересечения над объединением, точности на уровне пикселей и скорости вывода. Коэффициент кубиков и пересечение над объединением использовались в качестве основных метрик на основе перекрытия, поскольку они напрямую отражают согласование между предсказанной маской и областью полипа, аннотированной экспертом. Точность на уровне пикселей была указана как дополнительная мера, поскольку изображения колоноскопии часто содержат большие фоновые области. Скорость вывода, отражаемая в кадрах в секунду, была включена для оценки того, сохраняет ли модель практическую вычислительную эффективность при улучшении качества сегментации.

Сравнение с существующими методами
Для демонстрации поведения и эффективности PWD-Net проводится сравнение с пятью репрезентативными методами сегментации полипов: CBSA (Channel-Boosted Spatial Attention Network⁾³⁴, FSSA (Feature-Shared Spatial Attention Network), MSF (Multi-Scale Fusion Network), Pinwheel-Conv (базовая линия свертки Pinwheel без внимания или модулей слияния) и PolaLinear (поляризированная линейная сеть внимания). Все методы сравнения переосмыслены с использованием официально опубликованных исходных кодов и обучены на одном и том же наборе Kvasir-SEG (800 изображений) при идентичной предварительной обработке, входном разрешении (352 x 352) и настройках оценки для обеспечения справедливого сравнения. В таблице 3 представлены количественные результаты по тестовому набору.

Как показано в Таблице 3, PWD-Net достигает коэффициента кубиков 0,865 и коэффициента IoU 0,765, что соответствует улучшению на 1,8% в кубиках и 4,8% в IoU по сравнению со следующим по эффективности методом (CBSA). Примечательно, что PWD-Net достигает этого с 9,1 млн параметрами, по сравнению с 18,4 млн для CBSA, что свидетельствует о благоприятной эффективности. Хотя PolaLinear и Pinwheel-Conv обеспечивают более высокую скорость вывода (79 и 72 FPS соответственно), их точность сегментации заметно ниже, что говорит о том, что PWD-Net обеспечивает разумный баланс между точностью и вычислительными затратами для оцениваемого набора данных. Для иллюстрации качественного сегментационного поведения для визуального сравнения выбираются пять репрезентативных тестовых образцов, охватывающих малые полипы, крупные полипы, сложные фоны и размытые границы. На рисунке 5 представлены результаты сегментации четырёх выбранных методов сравнения (CBSA, FSSA, MSF и PWD-Net) наряду с основной истиной. Каждый столбец предсказания помечен соответствующим именем метода. Pinwheel-Conv и PolaLinear опущены в этом рисунке для визуальной ясности, так как их количественные показатели значительно ниже; таким образом, эта цифра представляет собой выбранное подмножество методов, сравниваемых в таблице 3.

Как показано на рисунке 5, в случаях с малыми полипами (первый и пятый ряды) FSSA и MSF демонстрируют пропущенные обнаружения, тогда как PWD-Net захватывает цели более полно. В сценариях с крупными полипами (второй и третий ряды) CBSA и FSSA вызывают заметные пограничные неровности, тогда как PWD-Net формирует более гладкие границы. В сценарии размытых границ (четвёртый ряд) PWD-Net демонстрирует эффективное подавление фонового шума с помощью механизма двойного внимания.

Исследование абляции
Для анализа вклада каждого основного компонента в PWD-Net проводится систематическое исследование абляции. Используя ResNet-50 в качестве основного энкодера для формирования базовой модели, постепенно внедряются модуль свертки Pinwheel (Pinwheel), механизм двойного внимания (Dual-Attn) и модуль многомасштабного синтеза признаков (MSF). Таблица 4 суммирует количественные результаты.

Ключевые выводы из Таблицы 4 можно резюмировать следующим образом. Во-первых, добавление любого отдельного модуля улучшает производительность базовой модели. Механизм двойного внимания приносит наиболее заметные улучшения (кубики: +2,0%, IoU: +2,7%), что подтверждает эффективность адаптивного шумоподавления. Модуль свёртки Pinwheel вносит 1,6% улучшение уровня кубиков, что указывает на пользу многонаправленного извлечения признаков для неправильных форм полипов. Во-вторых, объединение свёртки вертушки и механизма двойного внимания дополнительно увеличивает производительность до кубиков = 0,858 и IoU = 0,748, что указывает на комплементарность между двумя модулями. Наконец, полный PWD-Net (интегрирующий все три модуля) достигает наилучшей наблюдаемой производительности (Dice = 0,865, IoU = 0,765), с улучшениями на 3,3% и 6,0% соответственно по сравнению с исходным уровнем, демонстрируя вклад каждого предлагаемого компонента в данный набор данных.

Анализ процесса обучения
Для иллюстрации динамики обучения и характеристик сходимости PWD-Net фиксируются и визуализируются ключевые показатели эффективности на протяжении 50 эпох обучения. На рисунке 6 показаны вариации функции потерь, коэффициента кубиков, IoU и точности во время тренировки.

Как показано на рисунке 6(a), и потеря тренировок, и валидации быстро уменьшаются в течение первых 10 эпох, а затем постепенно стабилизируются. Потеря валидации остаётся немного выше потери при обучении на протяжении всего процесса, но обе кривые следуют постоянной тенденции с небольшим зазором, что указывает на отсутствие серьёзного перенагона. Рисунок 6(b) показывает, что коэффициент кубиков резко растёт на ранней стадии обучения, сходится примерно после 30-й эпохи и стабилизируется выше 0,86. Кривая IoU на рисунке 6(c) демонстрирует схожую тенденцию роста, достигая около 0,765 в поздней фазе обучения. Рисунок 6(d) показывает, что точность сходится выше 94%. Стабильные тенденции валидации на средних и поздних этапах обучения свидетельствуют о том, что принятая стратегия расширения данных и график косинусного отжига способствуют снижению перенагонов на этом наборе данных.

Производительность при разных размерах полипов
Для дальнейшей оценки применимости PWD-Net к различным клиническим сценариям тестовый набор (100 изображений) делится на три категории в зависимости от соотношения площади полипа к общей площади изображения: малые полипы (< 5%), средние полипы (5%–30%) и крупные полипы (> 30%). Эта классификация отражает влияние масштаба полипа на сложность сегментации. В таблице 5 представлены количественные показатели по каждой категории. Как показано в таблице 5, PWD-Net достигает наилучших результатов в категории средних полипов (Dice = 0,882, IoU = 0,790), что соответствует более широкому представлению этой категории (54 из 100 тестовых изображений). Производительность на крупных полипах остаётся на сопоставимом уровне (кубики = 0,861, IoU = 0,760). Производительность на малых полипах относительно ниже (кубики = 0,812, IoU = 0,685), главным образом потому, что малые объекты занимают небольшую часть изображения и более восприимчивы к фоновому шуму при меньшей информации о границах.

Эти результаты свидетельствуют о том, что многонаправленная возможность захвата объектов в модуле свертки Pinwheel и пространственная локализация механизма двойного внимания способствуют поддержанию разумного качества сегментации на различных масштабах полипов в оцениваемом наборе.

figure-results-1
Рисунок 1: Структура модели PWD-Net. Общая структурная структура предлагаемой сети сегментации полипов, основанная на свертке Pinwheel и Dual Attention (PWD-Net), иллюстрирующая энкодер (ResNet-50), узкое место (PCM), DAM-усиленные пропускные соединения, декодер MSF и генерацию выхода для сегментации колоректальных полипов. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

figure-results-2
Рисунок 2: Общая архитектурная блок-схема PWD-Net. Подробная блок-схема полной архитектуры PWD-Net, показывающая пятиступенчатый энкодер ResNet-50, узкое место PCM, пропускные соединения DAM, многомасштабный декодер слияния функций и итоговое генерирование прогнозирования. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

figure-results-3
Рисунок 3: Схематическая схема модуля свёртки с вертушками. Структурная и операционная схема модуля свёртки Pinwheel, демонстрирующая многоугольно вращающиеся ядра свёртки, билинейное вращение на основе интерполяции, конкатенацию каналов и агрегацию свёртки 1 x 1. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

figure-results-4
Рисунок 4: Структура механизма двойного внимания. Архитектурная диаграмма DAM, показывающая параллельную ветвь внимания канала (глобальное среднее пулирование → MLP с коэффициентом уменьшения r = 16 → сигмоид) и ветвь пространственного внимания (по каналам пулирование → свёрткой 7 x 7 → сигмоид), за которой следует взвешенное слияние с учёными коэффициентами α и β. Пожалуйста, нажмите здесь, чтобы посмотреть увеличенную версию этой рисунка.

figure-results-5
Рисунок 5: Качественное сравнение результатов сегментации. Каждая строка представляет собой тестовый образец. Столбцы слева направо: Input image, Ground Truth, CBSA, FSSA, MSF и PWD-Net (наш). Pinwheel-Conv и PolaLinear опущены в этом рисунке для визуальной ясности; см. таблицу 3 для полного количественного сравнения. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

figure-results-6
Рисунок 6: Кривые обучения PWD-Net за 50 эпох. (a) Потери в обучении и валидации. (b) коэффициент бросков кубиков. (c) Пересечение через Юнион (IoU). (d) Точность на уровне пикселей. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Подмножество обучения	Количество образцов	Пропорция
Состав поездов	800	80%
Валидационный набор	100	10%
Тестовый набор	100	10%
Total Set	1000	100%

Таблица 1: Статистика наборов данных. Распределение разделения набора данных для набора Kvasir-SEG (всего 1 000 изображений), показывающее количество изображений и пропорцию, присвоенные подмножествам обучения, валидации и тестирования (случайное заседа = 42).

Категория	Параметрический элемент	Настройка параметров
Фреймворк глубокого обучения	Фреймворк	PyTorch
Аппаратная среда	GPU	NVIDIA Tesla P100
Метод ускорения	Ускорение GPU	CUDA
Настройки ввода	Размер входного изображения	352 × 352
Формат изображения	Формат изображения	RGB-изображение
Оптимизатор	Оптимизатор	Адам
Начальная скорость обучения	Первоначальный LR	1 × 10⁻⁴
Размер партии	Размер партии	16
Эпохи обучения	Эпохи	50
Функция потерь	Функция потерь	Потеря кубиков + BCE

Таблица 2: Экспериментальные параметры. Экспериментальные параметры для обучения и оценки PWD-Net. Обратитесь к шагам подготовки данных и разделу 5.2 протокола для полной пошаговой процедуры внедрения.

Метод	Кости ↑	IoU ↑	Точность ↑	Параметры (M) ↓	FPS ↑
CBSA	0.8466	0.717	0.9325	18.4	36
FSSA	0.7109	0.551	0.9012	9.8	61
MSF	0.7337	0.585	0.9086	11.5	54
Pinwheel-Conv	0.8007	0.6742	0.9401	7.9	72
PolaLinear	0.7213	0.5707	0.9113	6.6	79
PWD-Net (наш)	0.865	0.7651	0.9478	9.1	63

Таблица 3: Результаты количественного сравнения. Количественное сравнение PWD-Net с пятью существующими методами сегментации полипов в тестовом наборе Kvasir-SEG (100 изображений). Все методы оцениваются при одинаковых разделениях данных, предварительной обработке и разрешении входных данных (352 x 352). ↑ означает, что выше — значит лучше; ↓ означает, что меньше — значит лучше. Методы, отмеченные *, обозначают результаты, ссылающиеся из оригинальной публикации, а не переосмысленные.

Конфигурация	Вертушка	Двойное внимание	MSF	Кости ↑	IoU ↑
Исходная линия	×	×	×	0.832	0.705
+ Вертушка	√	×	×	0.848	0.725
+ Dual-Attn	×	√	×	0.852	0.732
+ MSF	×	×	√	0.844	0.72
+ Pinwheel + Dual-Attn	√	√	×	0.858	0.748
Full (PWD-Net)	√	√	√	0.865	0.765

Таблица 4: Результаты абляционного исследования. Результаты абляционного исследования на тестовом наборе Kvasir-SEG, показывающие инкрементальный вклад модуля свертки Pinwheel (Pinwheel), механизма двойного внимания (Dual-Attn) и многомасштабного синтеза признаков (MSF) в базовый энкодер ResNet-50.

Тип полипа	Число	Кости ↑	IoU ↑
Мелкие полипы (< 5%)	21	0.812	0.685
Средние полипы (5%–30%)	54	0.882	0.79
Крупные полипы (> 30%)	25	0.861	0.76

Таблица 5: Производительность PWD-Net на различных типах полипов. Производительность PWD-Net на различных категориях размеров полипов в тестовом наборе Kvasir-SEG (100 изображений). Размер полипа определяется отношением площади полипа к общей площади изображения.

Дополнительный файл: Сжатый архив, содержащий реализацию фреймворка PWD-Net. Файл включает model.py определение сетевой архитектуры с помощью модуля свертки Pinwheel (PCM) и механизма двойного внимания (DAM), train.py реализацию конвейера загрузки данных, функции потерь и процедуры обучения, test.py вывод и оценки моделей на тестовых наборах данных, а также requirements.txt перечисление всех необходимых библиотек Python и соответствующих версий. Пожалуйста, нажмите здесь, чтобы скачать этот файл.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ряд проектных решений в протоколе PWD-Net критически важны для достижения надежных результатов сегментации и требуют тщательного внимания при реализации. Во-первых, выбор и инициализация основной системы энкодера напрямую влияют на поведение сходимости и конечную производительность. Протокол использует кодировщик ResNet-50, предварительно обученный на ImageNet, который обеспечивает надёжную инициализацию функций на низком и среднем уровне. Это особенно важно для задач сегментации медицинских изображений, где доступные учебные данные ограничены (800 изображений в данном исследовании). Тонкая настройка всех слоёв энкодера вместо их замораживания позволяет сети адаптировать предобученные признаки к специфическим характеристикам изображений колоноскопии, таким как текстуры слизистые и зеркальные отражения. Во-вторых, размещение каждого основного модуля в архитектуре является намеренным. Модуль свёртки Pinwheel (PCM) расположен в узком месте, где пространственное разрешение минимальное, но семантическая информация наиболее богата, что позволяет эффективно захватывать глобальные геометрические узоры без чрезмерных вычислительных затрат. Механизм двойного внимания (DAM) встроен в пропускные соединения, а не в декодер, что обеспечивает подавление фоновых шумов до передачи функций на декодер, предотвращая распространение загрязнённых признаков через стадии слияния. Исследование абляции (Таблица 4) подтверждает такую конструкцию: DAM обеспечивает наибольшее индивидуальное прирост производительности (+2,0%), подтверждая важность раннего подавления шума в конвейере функций. В-третьих, гибридная функция потерь (0,5 · BCE + 0,5 · кубики) балансирует точность классификации на уровне пикселей с оптимизацией перекрытия на уровне регионов. Эта комбинация особенно актуальна для сегментации полипов, где распространённый дисбаланс классов на переднем и заднем плане. Равный вес (λ = 0,5) принимается по умолчанию; Корректировка этого отношения может потребоваться для наборов данных с разными классовыми распределениями (см. раздел «Устранение неполадок» ниже).

Модификации и устранение неполадок
Приведены следующие модификации и рекомендации по устранению неполадок для адаптации протокола к различным экспериментальным настройкам. При применении протокола к наборам данных с разным разрешением изображений или распределением размеров полипов входное разрешение (352 x 352) может потребовать корректировки. Большие размеры входов могут улучшить обнаружение мелких полипов за счёт увеличения потребления памяти и снижения скорости вывода. Если потери в обучении не сходятся в течение 50 эпох, рассмотрите возможность снижения начальной скорости обучения (например, до 5 x 10⁻⁵) или увеличения длительности косинусного отжига. Если модель демонстрирует высокие показатели ложноположительных результатов в областях с сильными зеркальными отражениями или слизистыми складками, увеличение веса компонента потери кубиков (например, λ = 0,4 для BCE, 0,6 для кубиков) может повысить точность границ за счёт точности на уровне пикселей. Наоборот, если модель недостаточно сегментирует малые полипы, увеличение веса BCE может помочь. Количество углов вращения в PCM (в настоящее время восемь, от 0° до 315° с шагом 45°) отражает баланс между направленным покрытием и вычислительной стоимостью. Уменьшение до четырёх углов (0°, 90°, 180°, 270°) снижает вычисления, но может снижать чувствительность к косым границам полипов. Коэффициент редукции r = 16 в ветке внимания канала DAM соответствует конвенции, установленной в предыдущих сетях сжатия и^{возбуждения 32}; Меньшие коэффициенты (например, r = 8) увеличивают ёмкость моделей, но могут привести к перенагону на небольших наборах данных. Для наборов данных, значительно превышающих Kvasir-SEG, рассмотрите возможность увеличения размера пакета и соответствующих этапов обучения, а также мониторинга метрик валидации, чтобы определить подходящую точку остановки.

Значимость относительно альтернативных методов
Архитектура PWD-Net учитывает специфические ограничения существующих подходов через три дополняющих модуля. По сравнению с методами, основанными на стандартных ядрах квадратной свёртки, PCM обеспечивает направленную чувствительность благодаря ядрам, вращающимся под несколькими углом, что позволяет лучше адаптироваться к неправильной и разнообразной морфологии колоректальных полипов. По сравнению с одномерными механизмами внимания (например, только по каналу в сетях сжатия и^{возбуждения 33}), DAM совместно моделирует важность каналов и пространственности, предлагая более комплексное подавление шума в сложной колоноскопической среде. По сравнению с архитектурами на базе трансформеров, такими как^{TransUNet 34} и Polyp-PVT³⁵, которые предлагают сильное глобальное моделирование при более высокой вычислительной стоимости, PWD-Net достигает конкурентоспособной производительности благодаря относительно компактному размеру модели (9,1 млн параметров) и практической скорости вывода (63 FPS), как показано в таблице 3.

Следует отметить, что сравнения, представленные в данном исследовании (Таблица 3), проводятся в контролируемых условиях с идентичным разделением данных, предварительной обработкой и протоколами оценки. Наблюдаемые различия в производительности специфичны для тестового набора Kvasir-SEG (100 изображений), использованных в этом исследовании, и могут не быть напрямую обобщёнными для других наборов данных или клинических условий. Более широкое сравнение с включением дополнительных установленных базовых стандартов (например,^{PraNet 36}, ResUNet++³⁷) в рамках стандартизированных мультинаборов тестов дополнительно укрепит данные и планируется для будущих исследований. Недавние исследования по архитектурам двойных энкодер-декодеров для сегментации^{полипов 38} продемонстрировали потенциал параллельного кодирования и декодирования путей. Архитектура PWD-Net отличается тем, что сосредоточена на вращательном геометрическом моделировании и двойной фильтрации в рамках единого конвейера энкодер-декодер, что представляет собой дополнительную философию проектирования.

Следует признать несколько важных ограничений этого исследования. Во-первых, что касается экспериментального масштаба, текущее исследование публикует результаты исключительно на наборе данных Kvasir-SEG с единым случайным разделением — 800 обучающих, 100 валидационных и 100 тестовых изображений. Размер тестового набора (100 изображений) относительно мал, и сообщается только один обучающий запуск без повторных экспериментов или перекрёстной валидации. Следовательно, представленные показатели эффективности могут быть подвержены дисперсиям, связанным с конкретным разделением данных. Будущие работы должны включать k-кратную кросс-валидацию или множественные случайные разбиения с указанными стандартными отклонениями для получения более надёжных оценок эффективности. Во-вторых, PCM добавляет дополнительные вычислительные расходы за счет многоугольного вращения ядра и агрегации. Хотя общая модель остаётся компактной (9,1 млн параметров), внедрение на устройствах с ограниченными ресурсами в клинических условиях может потребовать дополнительной оптимизации с помощью таких методов, как дистилляция знаний или обрезка моделей. В-третьих, модель обучается и оценивается исключительно на статичных изображениях, тогда как клиническая колоноскопия включает видеопотоки в реальном времени, в которых внешний вид, размер и точка обзора полипов динамически меняются на протяжении последовательных кадров. Хотя скорость вывода 63 FPS совместима с частотами кадров в реальном времени, этот показатель сам по себе не является клинической валидацией. Для того, как можно будет сделать какие-либо заявления о клинической готовности необходимо провести проспективную валидацию эндоскопических видеоданных, исследования на считывателях и клинических конечных анализах 39,40,41. Текущая работа следует рассматривать как методологический вклад, а не как клинически валидированную систему.

В-четвёртых, клинический путь трансляции для сегментации полипов с помощью ИИ выходит далеко за рамки точности сегментации. Недавние обзоры показали, что передовые инструменты визуализации и анализа должны интегрироваться в более широкие эндолюминальные рабочие процессы, включая классификацию поражений, стадирование и планирование лечения. Текущий протокол сосредоточен исключительно на сегментации бинарных полипов и не охватывает патологическую^{классификацию 42} (например, аденоматозные и гиперпластические полипы) или оценку риска злокачественных опухолей, которые являются необходимыми для принятия клинических решений. В-пятых, наборы данных, используемые в этом исследовании, в основном получены из исследований колоноскопии у взрослых. Данные о детских полипах, полипах, связанных с воспалительными заболеваниями кишечника, и других специальных патологических типах, не представлены. Обобщимость модели на эти популяции остаётся непроверенной. В-шестых, хотя для иллюстрации функции каждого модуля приводятся эксперименты по абляции и качественные визуализации, интерпретируемость модели остаётся ограниченной. Процесс принятия решений по моделям глубокого обучения не является полностью прозрачным, что может повлиять на доверие и внедрение клиницистами. Будущие работы могут включать методы визуализации на основе градиентов для более интуитивных объяснений прогнозов^{моделей 43}.

Несмотря на вышеуказанные ограничения, протокол PWD-Net предоставляет воспроизводимую основу для сегментации полипов, которая может служить основой для дальнейшей разработки. Возможные направления включают: расширение модели на видеоанализ колоноскопии с использованием методов временного моделирования; добавление ветви классификации для сквозной сегментации и патологической типизации; расширение оценки на более крупные и разнообразные многоцентровые наборы данных; а также исследование интеграции в эндолюминальные роботизированные платформы, где анализ изображений с помощью искусственного интеллекта всё больше признаётся ключевой способствующей^{технологиями} ^44,45. Дополнительный пакет кодов, предоставляемый этим протоколом, предназначен для облегчения воспроизведения и адаптации метода другими исследовательскими группами.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Авторам нечего раскрывать.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Это исследование финансировалось Национальной программой ключевых исследований и разработок Китая (программы No 2022YFC3500200 и 2022YFC3500204).

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Adam Optimizer	—	—	Включено в PyTorch
Альбоменции	Команда Albumentations	v1.0+	Библиотека дополнения данных
Набор инструментов CUDA	NVIDIA	v11.3+	Ускорение GPU
Набор данных Kvasir-SEG	SimulaMet	—	https://datasets.simula.no/kvasir-seg/
Matplotlib	Сообщество Матплотлиб	v3.4+	Визуализация обучающих кривых
NumPy	Сообщество NumPy	v1.21+	Численное вычисление
NVIDIA Tesla P100	NVIDIA	P100-PCIE-16GB	GPU для обучения и вывода
OpenCV	Сообщество OpenCV	v4.5+	Предварительная обработка изображений
Python	Фонд программного обеспечения Python	v3.8+	Язык программирования
PyTorch	Мета-платформы	v1.12+	Фреймворк глубокого обучения
Заранее обученные веса ResNet-50	Модельный зоопарк PyTorch	—	ImageNet-1K предварительно обучен
Ubuntu	Канонический	18.04+	Операционная система

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Сеть сегментации полипов на основе свёртки с вертушкой и двойного внимания для диагностики колоректальных предраковых поражений

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles