Этот протокол реализует U-образную сеть глубокого обучения, интегрирующую свёртку с вертушками, двойное внимание и многомасштабное слияние для сегментирования колоректальных полипов.
Method Article
Этот протокол реализует U-образную сеть глубокого обучения, интегрирующую свёртку с вертушками, двойное внимание и многомасштабное слияние для сегментирования колоректальных полипов.
Точная сегментация колоректальных полипов крайне важна для ранней профилактики и диагностики колоректального рака. Однако из-за высокой гетерогенности полипов по форме, размеру и текстуре, а также сложности кишечной среды (такой как складки, зеркальные отражения и каловые остатки) существующие методы всё ещё сталкиваются с серьёзными трудностями в локализации границ и обнаружении мелких полипов. Для решения этих проблем в данной статье предлагается сеть сегментации полипов на основе свёртки с вертушками и двойного внимания (PWD-Net). Предлагаемая сеть использует U-образную архитектуру энкодер-декодер, где в качестве энкодера используется предварительно обученный ResNet для извлечения многоуровневых локальных признаков. В частности, модуль свёртки Вертушки (PCM) вводится на узком уровне для захвата глобальной геометрической структуры и многонаправленной контекстуальной информации полипов через ядра свёртки с несколькими углом вращения. Механизм двойного внимания (DAM), интегрирующий внимание канала и пространственное внимание, предназначен для адаптивного подавления фонового шума и усиления особенностей области полипов. Кроме того, применяется стратегия многомасштабного синтеза признаков (MSF) для объединения глубокой семантической информации с поверхностными граничными деталями, обеспечивая как полноту, так и точность результатов сегментации. Эксперименты, проведённые на наборах данных Kvasir-SEG и CVC-ClinicDB, показывают, что PWD-Net достигает средних коэффициентов кубиков 0,865 и 0,944, а также показателей IoU 0,765 и 0,892 соответственно, значительно превосходя существующие современные методы. Исследования абляции подтверждают эффективность каждого модуля, а кросс-наборы подтверждают высокую способность модели к обобщению. Это исследование предоставляет высокоточное и надёжное решение для клинической сегментации полипов, предлагая значительную ценность для ранней диагностики колоректальных предраковых поражений и поддерживая компьютерное вмешательство.
Колоректальный рак — одна из самых распространённых злокачественных опухолей в мире, с постоянно высокими показателями заболеваемости и смертности. Исследования показали, что большинство колоректальных раков развиваются из-за аденоматозных полипов, процесс, который обычно занимает 10–15 лет, что обеспечивает ценное временное окно для раннего выявления и вмешательства. Повышение уровня обнаружения аденомы (ADR) на 1% может снизить риск колоректального рака примерно на 3%, значительно снижая смертностьпациентов 1. Колоноскопия, считающаяся золотым стандартом скрининга колоректального рака, позволяет напрямую удалять полипы во время обследования, что эффективно снижает заболеваемость и смертность от рака.
Однако традиционная колоноскопия сильно зависит от опыта и уровня подготовки эндоскопистов. Такие факторы, как субъективное суждение, зрительная усталость и отвлечение, могут привести к проценту промахов от 20% до 30%, что напрямую влияет на эффективностьскрининга 2. Поэтому разработка систем автоматизированного обнаружения (CAD) для автоматической сегментации колоректальных полипов имеет большое значение для улучшения ADR и сокращения пропущенных диагнозов. Недавние клинические исследования ещё больше подчеркнули интерес к интеграции искусственного интеллекта в рабочие процессы оценки эндоскопических поражений, подчёркивая необходимость надёжных и воспроизводимых методовсегментации 3.
В последние годы глубокое обучение достигло значительных успехов в анализе медицинских изображений, особенно в сверточных нейронных сетях (CNN), которые демонстрируют сильные возможности в извлечении и представлении признаков для задач сегментацииизображений 4. Как классическая модель сегментации медицинских изображений, U-Net использует архитектуру симметричного энкодер-декодера и пропускные соединения для достижения точной сегментации на уровне пикселей, став эталоном в этойобласти. Опираясь на U-Net, было предложено множество улучшенных архитектур для решения сложных задач сегментации медицинских изображений. UNet++ сокращает семантический разрыв между отображением признаков кодировщика и декодера, вводя вложенные и плотные пропускающиесоединения 6. ResUNet++ интегрирует остаточные блоки, модули сжатия и возбуждения, расширенные свёртки и механизмы внимания, обеспечивая высокую производительность в сегментацииполипов 7. U2-Net использует двухуровневую вложенную U-образную структуру для сбора многомасштабной информации опризнаках 8. В последнее время была предложена сеть сегментации глубоких полипов на базе двойного энкодер-декодер, использующая параллельное кодирование и декодирование путей для дальнейшего повышения точностисегментации 9.
В то же время внедрение механизмов внимания открывает новые решения для усиления функций функций и подавления шума. Attention U-Net использует ворота внимания, чтобы сосредоточиться на целевых регионах, подавляя при этом нерелевантную фоновуюинформацию 10. Сеть двойного внимания (DANet) адаптивно взвешивает признаки как по каналу, так и попространственному измерениям 11, улучшая восприятие критически важных признаков. Triple Attention Networks (TANet) дополнительно повышают производительность сегментации за счёт адаптивного выбора многомасштабных функций12.
С успехом архитектур трансформеров в обработке естественного языка и компьютерномзрении 13 исследователи начали изучать их применение в сегментации медицинских изображений. TransUNet первым использовал трансформер в качестве энкодера для эффективного моделирования дальнихзависимостей 14. Swin-UNet использует чисто трансформерскую архитектуру и обеспечивает эффективную глобальную агрегацию информации с помощью механизма сдвиговогоокна 15. UTNet предлагает гибридную архитектуру, которая объединяет локальную возможность извлечения признаков CNN с глобальными возможностями моделированияTransformers 16.
В области сегментации полипов Polyp-PVT использует пирамидальный трансформер для захвата многомасштабной глобальной семантическойинформации 17, тогда как многомасштабный вложенный UNet улучшает контекстное понимание за счёт интеграцииTransformers 18. Недавние исследования также изучали стратегии обучения с отрицательной корреляцией для междоменной сегментацииполипов 19, усиления сегментации с дополнением поГомперцу 20 и архитектуры, основанные на внимание, с использованием пограничногоруководства 21. Хотя эти подходы в некоторой степени улучшают эффективность сегментации, сегментация полипов всё ещё сталкивается с рядом проблем. Во-первых, полипы демонстрируют высокую гетерогенность по морфологии, размеру и текстуре — от микрополипов размером меньше 5 мм до крупных полипов свыше 30 мм, с формами от круглых и эллиптических до сильно неправильных. Во-вторых, среда кишечника сложна и изменчива: слизистые складки, зеркальные отражения, каловые остатки и пищевые остатки создают сильные фоновые помехи. В-третьих, многие полипы имеют размытые границы, могут быть частично закрыты складками или погружаться в кишечные жидкости, что делает точную локализацию границ крайнесложной 22.
Существующие методы по-прежнему имеют явные ограничения в решении этих проблем. Традиционные CNN эффективно извлекают локальные текстурные и крайевые особенности; Однако ядра с фиксированной квадратной свёрткой плохо подходят для захвата различных геометрических форм23, особенно для сильно неправильных полипов, и не могут эффективно моделировать многонаправленные геометрические особенности. Методы на основе трансформаторов могут моделировать глобальные зависимости, но менее эффективны в захвате мелких локальных деталей и информации о границах. Кроме того, их высокая вычислительная сложность делает их менее подходящими для клинических приложений в реальномвремени 24. Современные подходы к сегментации полипов, такие как PraNet, использующий модули обратного внимания для уточнения ключевыхобластей 25, каскад внимания, ориентированные на границы, улучшающие экстракцию граничныхпризнаков 26, и CAFE-Net, объединяющий функции энкодера и декодера через механизмы перекрёстного внимания27, по-прежнему сталкиваются с недостаточным представлением признаков и неточной локализацией границ при работе с малымиполипами 28, размытые границы и сложные предыстории. Кроме того, большинство методов игнорируют геометрическую морфологию и не используют многонаправленную контекстную информацию, что приводит к неоптимальной сегментации неправильной формы полипов.
В заключение, современные методы на базе CNN не способны захватывать многонаправленные геометрические признаки из-за зависимости от ядра с фиксированной квадратной свёрткой. Подходы на основе трансформаторов предлагают глобальное моделирование, но жертвуют локальной точностью границ и требуют высоких вычислительных затрат. В то же время существующие стратегии слияния с повышенным вниманием и многомасштабного синтеза не были совместно оптимизированы в единой структуре, специально разработанной для сегментацииполипов 29. Эти пробелы мотивируют разработку метода, который одновременно охватывает геометрическое моделирование признаков, адаптивное шумоподавление и межмасштабную интеграцию признаков.
Для решения этих проблем этот протокол представляет сеть сегментации полипов, основанную на свертке Pinwheel и Dual Attention (PWD-Net). Предлагаемая сеть интегрирует геометрическое моделирование признаков, многомерное усиление внимания и многомасштабное слияние признаков, что позволяет точно сегментировать сложные полипы. Основные вклады этой работы обобщены следующим образом: модуль свёртки с вертушками (PCM), вдохновлённый структурой вертушки, предлагается новая конструкция ядра с вращающейся свёрткой, которая фиксирует многонаправленные геометрические особенности полипов посредством операций свёртки под несколькими углами (0°, 45°, 90°, 135°, 180°, 225°, 270° и 315°). Этот модуль заменяет традиционный слой свёртки на стадии узкого места, обеспечивая эффективное восприятие различных ориентаций краёв и значительно улучшая представление неправильной формы полипов. Механизм двойного внимания (DAM) устраняет фоновые шумы, такие как складки, отражения и калдыки кала на изображениях колоноскопии. Разработан модуль двойного внимания, интегрирующий внимание канала и пространственное внимание. Встроенный в пропускные соединения, этот модуль адаптивно подавляет фоновые интерференции и усиливает реакцию признаков в областях полипов, совместно определяя «что» важно (размер канала) и «место» расположения цели (пространственное измерение), обеспечивая, чтобы в последующее слияние участвовали только более тонкие элементы. Многомасштабная стратегия слияния признаков (MSF) сохраняет как глубокую семантическую информацию, так и поверхностные граничные детали с помощью иерархического механизма, введённого в декодере. Постепенно интегрируя функции энкодера с улучшенными DAM с апсемплированными функциями декодера, эта стратегия эффективно компенсирует потерю пространственных деталей, вызванную понижением дискретизации, обеспечивая точное обнаружение мелких полипов и точное определение границ.
В данном исследовании используются только общедоступные, анонимизированные наборы изображений колоноскопии (Kvasir-SEG). Новых данных о людях не собиралось. Одобрение институциональной этики и информированное согласие пациента не требовались, что подтверждается политикой институционального обзора для ретроспективного анализа деидентифицированных публичных наборов данных.
1. Подготовка данных
2. Общая архитектура
ПРИМЕЧАНИЕ: См. рисунок 1 для макроуровневого энкодер-декодера основы PWD-Net и рисунок 2 для интеграции и взаимодействия основных модулей в потоке признаков. Общая архитектура выполнена по схеме U-образного энкодера-декодера для обработки изменений масштаба полипов и фоновых интерференций в изображениях колоноскопии.
3. Модуль свертки с вертушками (рисунок 3)

4. Механизм двойного внимания (рисунок 4)
ПРИМЕЧАНИЕ: Механизм двойного внимания (DAM) встроен в каждое пропускное соединение для подавления фонового шума и усиления особенностей области полипов как с точки зрения канала, так и пространственного измерения.


5. Многомасштабное слияние признаков
6. Функция потери и конфигурация обучения



7. Псевдокод
Алгоритм 1: Сегментация полипов с ограниченным образованием (PWD-Net)
1: Ввод: Изображение колоноскопии I ∈ RH×W×3
2: Результат: Сегментационная маска M ∈ {0,1}(H×W)
3:
4: функция PCM(X) ▷ Модуль свёртки Вертушки
5: Определим базовое ядро W (3 x 3), углы Θ = {0°, 45°, ..., 315°}
6: для каждого θ ∈ Θ делают
7: Wθ ← БилинейныйВращать (W, θ) ▷ Вращать ядро
8: Yθ ← Conv2d(X,W θ) ▷ Особенности, специфичные для направления
9: конец для
10: Yout ← ReLU(BN(Conv1 x 1(Concat({Y θ})))) ▷ Aggregate
11: возвращение Yиз аут.
12: конечная функция
13:
14: функция DAM(F) ▷ Механизм двойного внимания
15: Ac ← Sigmoid(MLP(AvgPool(F))) ▷ Channel attention (r=16)
16: As ← Sigmoid(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Пространственное внимание
17: F' ← F ⊗ (α · A c + β · As) ▷ Слияние с обучаемым α, β (init=0.5)
18: возвращение F'
19: конечная функция
20:
21: функция PWD-Net(I)
22: Энкодер: e1,e 2,e 3, e4, e5 ← ResNet50_Stages(I) ▷ 5-ступенчатый предобученный энкодер
23: Узкое место: b ← PCM(e5) ▷ Применить PCM в узком месте
24: Пропуск соединений: si ← DAM(ei) для i = 1, 2, 3, 4 ▷ Функции фильтр-энкодера
25: Декодер:
26: d4 ← DoubleConv(Concat(Up(b), s4))
27: d3 ← DoubleConv(Concat(Up(d4), s3))
28: d2 ← DoubleConv(Concat(Up(d3), s2))
29: d1 ← DoubleConv(Concat(Up(d2), s1))
30: M ← Sigmoid(Conv1 x 1(d1))
31: возвращение M
32: конечная функция
33:
34: Обучение:
35: для каждой эпохи делают
36: M̂ ← PWD-Net(I)
37: L ← 0,5 · BCE(M̂,M gt) + 0,5 · DiceLoss(M̂,M gt) ▷ λ = 0.5
38: Обновление параметров через обратное распространение (Adamоптимизирует r)
39: конец для
Экспериментальная установка
Набор данных
Набор данных Kvasir SEG использовался для оценки сегментационного поведения PWD Net на изображениях колоноскопии с гетерогенными полипами. Набор данных содержит 1000-пиксельные аннотированные изображения полипов и включает вариации размера, формы, текстуры, освещения и сложности фона, что делает его подходящим для оценки обнаружения малых целей, локализации границ и устойчивости к визуальным помехам. Набор данных был разделён на учебные, валидационные и тестовые подмножества, а окончательный тестовый набор использовался только для оценки производительности. Распределение изображений обобщено в Таблице 1.
Детали реализации
Настройки реализации, необходимые для воспроизводимости, приведены в таблице 2 , а полные процедурные детали приведены в этапах подготовки данных и разделе 5.2 протокола. Для интерпретации результатов все представленные эксперименты использовали одинаковое входное разрешение, аппаратную среду и условия оценки, указанные в Таблице материалов. Указанные значения основаны на выбранной контрольной точке проверки кубиков из одного запуска с seed = 42, поэтому результаты следует интерпретировать как производительность при фиксированном экспериментальном разделе, а не как усредненные результаты перекрестной валидации.
Метрики оценки
Производительность сегментации оценивалась с помощью коэффициента кубиков, пересечения над объединением, точности на уровне пикселей и скорости вывода. Коэффициент кубиков и пересечение над объединением использовались в качестве основных метрик на основе перекрытия, поскольку они напрямую отражают согласование между предсказанной маской и областью полипа, аннотированной экспертом. Точность на уровне пикселей была указана как дополнительная мера, поскольку изображения колоноскопии часто содержат большие фоновые области. Скорость вывода, отражаемая в кадрах в секунду, была включена для оценки того, сохраняет ли модель практическую вычислительную эффективность при улучшении качества сегментации.
Сравнение с существующими методами
Для демонстрации поведения и эффективности PWD-Net проводится сравнение с пятью репрезентативными методами сегментации полипов: CBSA (Channel-Boosted Spatial Attention Network)34, FSSA (Feature-Shared Spatial Attention Network), MSF (Multi-Scale Fusion Network), Pinwheel-Conv (базовая линия свертки Pinwheel без внимания или модулей слияния) и PolaLinear (поляризированная линейная сеть внимания). Все методы сравнения переосмыслены с использованием официально опубликованных исходных кодов и обучены на одном и том же наборе Kvasir-SEG (800 изображений) при идентичной предварительной обработке, входном разрешении (352 x 352) и настройках оценки для обеспечения справедливого сравнения. В таблице 3 представлены количественные результаты по тестовому набору.
Как показано в Таблице 3, PWD-Net достигает коэффициента кубиков 0,865 и коэффициента IoU 0,765, что соответствует улучшению на 1,8% в кубиках и 4,8% в IoU по сравнению со следующим по эффективности методом (CBSA). Примечательно, что PWD-Net достигает этого с 9,1 млн параметрами, по сравнению с 18,4 млн для CBSA, что свидетельствует о благоприятной эффективности. Хотя PolaLinear и Pinwheel-Conv обеспечивают более высокую скорость вывода (79 и 72 FPS соответственно), их точность сегментации заметно ниже, что говорит о том, что PWD-Net обеспечивает разумный баланс между точностью и вычислительными затратами для оцениваемого набора данных. Для иллюстрации качественного сегментационного поведения для визуального сравнения выбираются пять репрезентативных тестовых образцов, охватывающих малые полипы, крупные полипы, сложные фоны и размытые границы. На рисунке 5 представлены результаты сегментации четырёх выбранных методов сравнения (CBSA, FSSA, MSF и PWD-Net) наряду с основной истиной. Каждый столбец предсказания помечен соответствующим именем метода. Pinwheel-Conv и PolaLinear опущены в этом рисунке для визуальной ясности, так как их количественные показатели значительно ниже; таким образом, эта цифра представляет собой выбранное подмножество методов, сравниваемых в таблице 3.
Как показано на рисунке 5, в случаях с малыми полипами (первый и пятый ряды) FSSA и MSF демонстрируют пропущенные обнаружения, тогда как PWD-Net захватывает цели более полно. В сценариях с крупными полипами (второй и третий ряды) CBSA и FSSA вызывают заметные пограничные неровности, тогда как PWD-Net формирует более гладкие границы. В сценарии размытых границ (четвёртый ряд) PWD-Net демонстрирует эффективное подавление фонового шума с помощью механизма двойного внимания.
Исследование абляции
Для анализа вклада каждого основного компонента в PWD-Net проводится систематическое исследование абляции. Используя ResNet-50 в качестве основного энкодера для формирования базовой модели, постепенно внедряются модуль свертки Pinwheel (Pinwheel), механизм двойного внимания (Dual-Attn) и модуль многомасштабного синтеза признаков (MSF). Таблица 4 суммирует количественные результаты.
Ключевые выводы из Таблицы 4 можно резюмировать следующим образом. Во-первых, добавление любого отдельного модуля улучшает производительность базовой модели. Механизм двойного внимания приносит наиболее заметные улучшения (кубики: +2,0%, IoU: +2,7%), что подтверждает эффективность адаптивного шумоподавления. Модуль свёртки Pinwheel вносит 1,6% улучшение уровня кубиков, что указывает на пользу многонаправленного извлечения признаков для неправильных форм полипов. Во-вторых, объединение свёртки вертушки и механизма двойного внимания дополнительно увеличивает производительность до кубиков = 0,858 и IoU = 0,748, что указывает на комплементарность между двумя модулями. Наконец, полный PWD-Net (интегрирующий все три модуля) достигает наилучшей наблюдаемой производительности (Dice = 0,865, IoU = 0,765), с улучшениями на 3,3% и 6,0% соответственно по сравнению с исходным уровнем, демонстрируя вклад каждого предлагаемого компонента в данный набор данных.
Анализ процесса обучения
Для иллюстрации динамики обучения и характеристик сходимости PWD-Net фиксируются и визуализируются ключевые показатели эффективности на протяжении 50 эпох обучения. На рисунке 6 показаны вариации функции потерь, коэффициента кубиков, IoU и точности во время тренировки.
Как показано на рисунке 6(a), и потеря тренировок, и валидации быстро уменьшаются в течение первых 10 эпох, а затем постепенно стабилизируются. Потеря валидации остаётся немного выше потери при обучении на протяжении всего процесса, но обе кривые следуют постоянной тенденции с небольшим зазором, что указывает на отсутствие серьёзного перенагона. Рисунок 6(b) показывает, что коэффициент кубиков резко растёт на ранней стадии обучения, сходится примерно после 30-й эпохи и стабилизируется выше 0,86. Кривая IoU на рисунке 6(c) демонстрирует схожую тенденцию роста, достигая около 0,765 в поздней фазе обучения. Рисунок 6(d) показывает, что точность сходится выше 94%. Стабильные тенденции валидации на средних и поздних этапах обучения свидетельствуют о том, что принятая стратегия расширения данных и график косинусного отжига способствуют снижению перенагонов на этом наборе данных.
Производительность при разных размерах полипов
Для дальнейшей оценки применимости PWD-Net к различным клиническим сценариям тестовый набор (100 изображений) делится на три категории в зависимости от соотношения площади полипа к общей площади изображения: малые полипы (< 5%), средние полипы (5%–30%) и крупные полипы (> 30%). Эта классификация отражает влияние масштаба полипа на сложность сегментации. В таблице 5 представлены количественные показатели по каждой категории. Как показано в таблице 5, PWD-Net достигает наилучших результатов в категории средних полипов (Dice = 0,882, IoU = 0,790), что соответствует более широкому представлению этой категории (54 из 100 тестовых изображений). Производительность на крупных полипах остаётся на сопоставимом уровне (кубики = 0,861, IoU = 0,760). Производительность на малых полипах относительно ниже (кубики = 0,812, IoU = 0,685), главным образом потому, что малые объекты занимают небольшую часть изображения и более восприимчивы к фоновому шуму при меньшей информации о границах.
Эти результаты свидетельствуют о том, что многонаправленная возможность захвата объектов в модуле свертки Pinwheel и пространственная локализация механизма двойного внимания способствуют поддержанию разумного качества сегментации на различных масштабах полипов в оцениваемом наборе.

Рисунок 1: Структура модели PWD-Net. Общая структурная структура предлагаемой сети сегментации полипов, основанная на свертке Pinwheel и Dual Attention (PWD-Net), иллюстрирующая энкодер (ResNet-50), узкое место (PCM), DAM-усиленные пропускные соединения, декодер MSF и генерацию выхода для сегментации колоректальных полипов. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Рисунок 2: Общая архитектурная блок-схема PWD-Net. Подробная блок-схема полной архитектуры PWD-Net, показывающая пятиступенчатый энкодер ResNet-50, узкое место PCM, пропускные соединения DAM, многомасштабный декодер слияния функций и итоговое генерирование прогнозирования. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Рисунок 3: Схематическая схема модуля свёртки с вертушками. Структурная и операционная схема модуля свёртки Pinwheel, демонстрирующая многоугольно вращающиеся ядра свёртки, билинейное вращение на основе интерполяции, конкатенацию каналов и агрегацию свёртки 1 x 1. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Рисунок 4: Структура механизма двойного внимания. Архитектурная диаграмма DAM, показывающая параллельную ветвь внимания канала (глобальное среднее пулирование → MLP с коэффициентом уменьшения r = 16 → сигмоид) и ветвь пространственного внимания (по каналам пулирование → свёрткой 7 x 7 → сигмоид), за которой следует взвешенное слияние с учёными коэффициентами α и β. Пожалуйста, нажмите здесь, чтобы посмотреть увеличенную версию этой рисунка.

Рисунок 5: Качественное сравнение результатов сегментации. Каждая строка представляет собой тестовый образец. Столбцы слева направо: Input image, Ground Truth, CBSA, FSSA, MSF и PWD-Net (наш). Pinwheel-Conv и PolaLinear опущены в этом рисунке для визуальной ясности; см. таблицу 3 для полного количественного сравнения. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Рисунок 6: Кривые обучения PWD-Net за 50 эпох. (a) Потери в обучении и валидации. (b) коэффициент бросков кубиков. (c) Пересечение через Юнион (IoU). (d) Точность на уровне пикселей. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.
| Подмножество обучения | Количество образцов | Пропорция |
| Состав поездов | 800 | 80% |
| Валидационный набор | 100 | 10% |
| Тестовый набор | 100 | 10% |
| Total Set | 1000 | 100% |
Таблица 1: Статистика наборов данных. Распределение разделения набора данных для набора Kvasir-SEG (всего 1 000 изображений), показывающее количество изображений и пропорцию, присвоенные подмножествам обучения, валидации и тестирования (случайное заседа = 42).
| Категория | Параметрический элемент | Настройка параметров |
| Фреймворк глубокого обучения | Фреймворк | PyTorch |
| Аппаратная среда | GPU | NVIDIA Tesla P100 |
| Метод ускорения | Ускорение GPU | CUDA |
| Настройки ввода | Размер входного изображения | 352 × 352 |
| Формат изображения | Формат изображения | RGB-изображение |
| Оптимизатор | Оптимизатор | Адам |
| Начальная скорость обучения | Первоначальный LR | 1 × 10⁻4 |
| Размер партии | Размер партии | 16 |
| Эпохи обучения | Эпохи | 50 |
| Функция потерь | Функция потерь | Потеря кубиков + BCE |
Таблица 2: Экспериментальные параметры. Экспериментальные параметры для обучения и оценки PWD-Net. Обратитесь к шагам подготовки данных и разделу 5.2 протокола для полной пошаговой процедуры внедрения.
| Метод | Кости ↑ | IoU ↑ | Точность ↑ | Параметры (M) ↓ | FPS ↑ |
| CBSA | 0.8466 | 0.717 | 0.9325 | 18.4 | 36 |
| FSSA | 0.7109 | 0.551 | 0.9012 | 9.8 | 61 |
| MSF | 0.7337 | 0.585 | 0.9086 | 11.5 | 54 |
| Pinwheel-Conv | 0.8007 | 0.6742 | 0.9401 | 7.9 | 72 |
| PolaLinear | 0.7213 | 0.5707 | 0.9113 | 6.6 | 79 |
| PWD-Net (наш) | 0.865 | 0.7651 | 0.9478 | 9.1 | 63 |
Таблица 3: Результаты количественного сравнения. Количественное сравнение PWD-Net с пятью существующими методами сегментации полипов в тестовом наборе Kvasir-SEG (100 изображений). Все методы оцениваются при одинаковых разделениях данных, предварительной обработке и разрешении входных данных (352 x 352). ↑ означает, что выше — значит лучше; ↓ означает, что меньше — значит лучше. Методы, отмеченные *, обозначают результаты, ссылающиеся из оригинальной публикации, а не переосмысленные.
| Конфигурация | Вертушка | Двойное внимание | MSF | Кости ↑ | IoU ↑ |
| Исходная линия | × | × | × | 0.832 | 0.705 |
| + Вертушка | √ | × | × | 0.848 | 0.725 |
| + Dual-Attn | × | √ | × | 0.852 | 0.732 |
| + MSF | × | × | √ | 0.844 | 0.72 |
| + Pinwheel + Dual-Attn | √ | √ | × | 0.858 | 0.748 |
| Full (PWD-Net) | √ | √ | √ | 0.865 | 0.765 |
Таблица 4: Результаты абляционного исследования. Результаты абляционного исследования на тестовом наборе Kvasir-SEG, показывающие инкрементальный вклад модуля свертки Pinwheel (Pinwheel), механизма двойного внимания (Dual-Attn) и многомасштабного синтеза признаков (MSF) в базовый энкодер ResNet-50.
| Тип полипа | Число | Кости ↑ | IoU ↑ |
| Мелкие полипы (< 5%) | 21 | 0.812 | 0.685 |
| Средние полипы (5%–30%) | 54 | 0.882 | 0.79 |
| Крупные полипы (> 30%) | 25 | 0.861 | 0.76 |
Таблица 5: Производительность PWD-Net на различных типах полипов. Производительность PWD-Net на различных категориях размеров полипов в тестовом наборе Kvasir-SEG (100 изображений). Размер полипа определяется отношением площади полипа к общей площади изображения.
Дополнительный файл: Сжатый архив, содержащий реализацию фреймворка PWD-Net. Файл включает model.py определение сетевой архитектуры с помощью модуля свертки Pinwheel (PCM) и механизма двойного внимания (DAM), train.py реализацию конвейера загрузки данных, функции потерь и процедуры обучения, test.py вывод и оценки моделей на тестовых наборах данных, а также requirements.txt перечисление всех необходимых библиотек Python и соответствующих версий. Пожалуйста, нажмите здесь, чтобы скачать этот файл.
Ряд проектных решений в протоколе PWD-Net критически важны для достижения надежных результатов сегментации и требуют тщательного внимания при реализации. Во-первых, выбор и инициализация основной системы энкодера напрямую влияют на поведение сходимости и конечную производительность. Протокол использует кодировщик ResNet-50, предварительно обученный на ImageNet, который обеспечивает надёжную инициализацию функций на низком и среднем уровне. Это особенно важно для задач сегментации медицинских изображений, где доступные учебные данные ограничены (800 изображений в данном исследовании). Тонкая настройка всех слоёв энкодера вместо их замораживания позволяет сети адаптировать предобученные признаки к специфическим характеристикам изображений колоноскопии, таким как текстуры слизистые и зеркальные отражения. Во-вторых, размещение каждого основного модуля в архитектуре является намеренным. Модуль свёртки Pinwheel (PCM) расположен в узком месте, где пространственное разрешение минимальное, но семантическая информация наиболее богата, что позволяет эффективно захватывать глобальные геометрические узоры без чрезмерных вычислительных затрат. Механизм двойного внимания (DAM) встроен в пропускные соединения, а не в декодер, что обеспечивает подавление фоновых шумов до передачи функций на декодер, предотвращая распространение загрязнённых признаков через стадии слияния. Исследование абляции (Таблица 4) подтверждает такую конструкцию: DAM обеспечивает наибольшее индивидуальное прирост производительности (+2,0%), подтверждая важность раннего подавления шума в конвейере функций. В-третьих, гибридная функция потерь (0,5 · BCE + 0,5 · кубики) балансирует точность классификации на уровне пикселей с оптимизацией перекрытия на уровне регионов. Эта комбинация особенно актуальна для сегментации полипов, где распространённый дисбаланс классов на переднем и заднем плане. Равный вес (λ = 0,5) принимается по умолчанию; Корректировка этого отношения может потребоваться для наборов данных с разными классовыми распределениями (см. раздел «Устранение неполадок» ниже).
Модификации и устранение неполадок
Приведены следующие модификации и рекомендации по устранению неполадок для адаптации протокола к различным экспериментальным настройкам. При применении протокола к наборам данных с разным разрешением изображений или распределением размеров полипов входное разрешение (352 x 352) может потребовать корректировки. Большие размеры входов могут улучшить обнаружение мелких полипов за счёт увеличения потребления памяти и снижения скорости вывода. Если потери в обучении не сходятся в течение 50 эпох, рассмотрите возможность снижения начальной скорости обучения (например, до 5 x 10⁻5) или увеличения длительности косинусного отжига. Если модель демонстрирует высокие показатели ложноположительных результатов в областях с сильными зеркальными отражениями или слизистыми складками, увеличение веса компонента потери кубиков (например, λ = 0,4 для BCE, 0,6 для кубиков) может повысить точность границ за счёт точности на уровне пикселей. Наоборот, если модель недостаточно сегментирует малые полипы, увеличение веса BCE может помочь. Количество углов вращения в PCM (в настоящее время восемь, от 0° до 315° с шагом 45°) отражает баланс между направленным покрытием и вычислительной стоимостью. Уменьшение до четырёх углов (0°, 90°, 180°, 270°) снижает вычисления, но может снижать чувствительность к косым границам полипов. Коэффициент редукции r = 16 в ветке внимания канала DAM соответствует конвенции, установленной в предыдущих сетях сжатия ивозбуждения 32; Меньшие коэффициенты (например, r = 8) увеличивают ёмкость моделей, но могут привести к перенагону на небольших наборах данных. Для наборов данных, значительно превышающих Kvasir-SEG, рассмотрите возможность увеличения размера пакета и соответствующих этапов обучения, а также мониторинга метрик валидации, чтобы определить подходящую точку остановки.
Значимость относительно альтернативных методов
Архитектура PWD-Net учитывает специфические ограничения существующих подходов через три дополняющих модуля. По сравнению с методами, основанными на стандартных ядрах квадратной свёртки, PCM обеспечивает направленную чувствительность благодаря ядрам, вращающимся под несколькими углом, что позволяет лучше адаптироваться к неправильной и разнообразной морфологии колоректальных полипов. По сравнению с одномерными механизмами внимания (например, только по каналу в сетях сжатия ивозбуждения 33), DAM совместно моделирует важность каналов и пространственности, предлагая более комплексное подавление шума в сложной колоноскопической среде. По сравнению с архитектурами на базе трансформеров, такими какTransUNet 34 и Polyp-PVT35, которые предлагают сильное глобальное моделирование при более высокой вычислительной стоимости, PWD-Net достигает конкурентоспособной производительности благодаря относительно компактному размеру модели (9,1 млн параметров) и практической скорости вывода (63 FPS), как показано в таблице 3.
Следует отметить, что сравнения, представленные в данном исследовании (Таблица 3), проводятся в контролируемых условиях с идентичным разделением данных, предварительной обработкой и протоколами оценки. Наблюдаемые различия в производительности специфичны для тестового набора Kvasir-SEG (100 изображений), использованных в этом исследовании, и могут не быть напрямую обобщёнными для других наборов данных или клинических условий. Более широкое сравнение с включением дополнительных установленных базовых стандартов (например,PraNet 36, ResUNet++37) в рамках стандартизированных мультинаборов тестов дополнительно укрепит данные и планируется для будущих исследований. Недавние исследования по архитектурам двойных энкодер-декодеров для сегментацииполипов 38 продемонстрировали потенциал параллельного кодирования и декодирования путей. Архитектура PWD-Net отличается тем, что сосредоточена на вращательном геометрическом моделировании и двойной фильтрации в рамках единого конвейера энкодер-декодер, что представляет собой дополнительную философию проектирования.
Следует признать несколько важных ограничений этого исследования. Во-первых, что касается экспериментального масштаба, текущее исследование публикует результаты исключительно на наборе данных Kvasir-SEG с единым случайным разделением — 800 обучающих, 100 валидационных и 100 тестовых изображений. Размер тестового набора (100 изображений) относительно мал, и сообщается только один обучающий запуск без повторных экспериментов или перекрёстной валидации. Следовательно, представленные показатели эффективности могут быть подвержены дисперсиям, связанным с конкретным разделением данных. Будущие работы должны включать k-кратную кросс-валидацию или множественные случайные разбиения с указанными стандартными отклонениями для получения более надёжных оценок эффективности. Во-вторых, PCM добавляет дополнительные вычислительные расходы за счет многоугольного вращения ядра и агрегации. Хотя общая модель остаётся компактной (9,1 млн параметров), внедрение на устройствах с ограниченными ресурсами в клинических условиях может потребовать дополнительной оптимизации с помощью таких методов, как дистилляция знаний или обрезка моделей. В-третьих, модель обучается и оценивается исключительно на статичных изображениях, тогда как клиническая колоноскопия включает видеопотоки в реальном времени, в которых внешний вид, размер и точка обзора полипов динамически меняются на протяжении последовательных кадров. Хотя скорость вывода 63 FPS совместима с частотами кадров в реальном времени, этот показатель сам по себе не является клинической валидацией. Для того, как можно будет сделать какие-либо заявления о клинической готовности необходимо провести проспективную валидацию эндоскопических видеоданных, исследования на считывателях и клинических конечных анализах 39,40,41. Текущая работа следует рассматривать как методологический вклад, а не как клинически валидированную систему.
В-четвёртых, клинический путь трансляции для сегментации полипов с помощью ИИ выходит далеко за рамки точности сегментации. Недавние обзоры показали, что передовые инструменты визуализации и анализа должны интегрироваться в более широкие эндолюминальные рабочие процессы, включая классификацию поражений, стадирование и планирование лечения. Текущий протокол сосредоточен исключительно на сегментации бинарных полипов и не охватывает патологическуюклассификацию 42 (например, аденоматозные и гиперпластические полипы) или оценку риска злокачественных опухолей, которые являются необходимыми для принятия клинических решений. В-пятых, наборы данных, используемые в этом исследовании, в основном получены из исследований колоноскопии у взрослых. Данные о детских полипах, полипах, связанных с воспалительными заболеваниями кишечника, и других специальных патологических типах, не представлены. Обобщимость модели на эти популяции остаётся непроверенной. В-шестых, хотя для иллюстрации функции каждого модуля приводятся эксперименты по абляции и качественные визуализации, интерпретируемость модели остаётся ограниченной. Процесс принятия решений по моделям глубокого обучения не является полностью прозрачным, что может повлиять на доверие и внедрение клиницистами. Будущие работы могут включать методы визуализации на основе градиентов для более интуитивных объяснений прогнозовмоделей 43.
Несмотря на вышеуказанные ограничения, протокол PWD-Net предоставляет воспроизводимую основу для сегментации полипов, которая может служить основой для дальнейшей разработки. Возможные направления включают: расширение модели на видеоанализ колоноскопии с использованием методов временного моделирования; добавление ветви классификации для сквозной сегментации и патологической типизации; расширение оценки на более крупные и разнообразные многоцентровые наборы данных; а также исследование интеграции в эндолюминальные роботизированные платформы, где анализ изображений с помощью искусственного интеллекта всё больше признаётся ключевой способствующейтехнологиями 44,45. Дополнительный пакет кодов, предоставляемый этим протоколом, предназначен для облегчения воспроизведения и адаптации метода другими исследовательскими группами.
Авторам нечего раскрывать.
Это исследование финансировалось Национальной программой ключевых исследований и разработок Китая (программы No 2022YFC3500200 и 2022YFC3500204).
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| Adam Optimizer | — | — | Включено в PyTorch |
| Альбоменции | Команда Albumentations | v1.0+ | Библиотека дополнения данных |
| Набор инструментов CUDA | NVIDIA | v11.3+ | Ускорение GPU |
| Набор данных Kvasir-SEG | SimulaMet | — | https://datasets.simula.no/kvasir-seg/ |
| Matplotlib | Сообщество Матплотлиб | v3.4+ | Визуализация обучающих кривых |
| NumPy | Сообщество NumPy | v1.21+ | Численное вычисление |
| NVIDIA Tesla P100 | NVIDIA | P100-PCIE-16GB | GPU для обучения и вывода |
| OpenCV | Сообщество OpenCV | v4.5+ | Предварительная обработка изображений |
| Python | Фонд программного обеспечения Python | v3.8+ | Язык программирования |
| PyTorch | Мета-платформы | v1.12+ | Фреймворк глубокого обучения |
| Заранее обученные веса ResNet-50 | Модельный зоопарк PyTorch | — | ImageNet-1K предварительно обучен |
| Ubuntu | Канонический | 18.04+ | Операционная система |
Request permission to reuse the text or figures of this JoVE article
Request Permission