Red de segmentación de pólipos basada en convolución en molinete y doble atención para el diagnóstico de lesiones precancerosas colorrectales

Ning Du; Xinqi Liu; Li Ji; Chuijie Wang

doi:10.3791/71178

Method Article

Red de segmentación de pólipos basada en convolución en molinete y doble atención para el diagnóstico de lesiones precancerosas colorrectales

DOI:

10.3791/71178

⸱

June 26th, 2026

Ning Du*¹ , Xinqi Liu*¹ , Li Ji² , Chuijie Wang³

¹National Cancer Center/National Clinical Research Center for Cancer/Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, ²Xinglin College of Liaoning University of Traditional Chinese Medicine, ³Liaoning University of Traditional Chinese Medicine Affiliated Hospital

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este protocolo implementa una red de aprendizaje profundo en forma de U que integra convolución de molinete de viento, doble atención y fusión multiescala para segmentar pólipos colorrectales.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La segmentación precisa de los pólipos colorrectales es crucial para la prevención y el diagnóstico temprano del cáncer colorrectal. Sin embargo, debido a la alta heterogeneidad de los pólipos en términos de forma, tamaño y textura, así como a la complejidad del entorno intestinal (como pliegues, reflejos especulares y residuos fecales), los métodos existentes aún enfrentan desafíos significativos en la localización de los límites y la detección de pólipos pequeños. Para abordar estos problemas, este artículo propone una Red de Segmentación de Pólipos basada en la Convolución en Molinete y la Doble Atención (PWD-Net). La red propuesta adopta una arquitectura codificador-decodificador en forma de U, donde se emplea un ResNet preentrenado como codificador para extraer características locales multinivel. Específicamente, se introduce un Módulo de Convolución Pinwheel (PCM) en la capa de cuello de botella para capturar la estructura geométrica global y la información contextual multidireccional de los pólipos mediante núcleos de convolución rotados en múltiples ángulos. Un Mecanismo de Doble Atención (DAM) que integra la atención del canal y la atención espacial está diseñado para suprimir de forma adaptativa el ruido de fondo y mejorar las características de la región de pólipos. Además, se emplea una estrategia de Fusión de Características Multiescala (MSF) para combinar información semántica profunda con detalles superficiales en los límites, asegurando tanto la completitud como la precisión de los resultados de segmentación. Los experimentos realizados con los conjuntos de datos Kvasir-SEG y CVC-ClinicDB demuestran que PWD-Net alcanza coeficientes medios de Dice de 0,865 y 0,944, y puntuaciones IoU de 0,765 y 0,892, respectivamente, superando significativamente a los métodos de última generación existentes. Los estudios de ablación verifican la efectividad de cada módulo, y las evaluaciones entre conjuntos de datos confirman la fuerte capacidad de generalización del modelo. Este estudio ofrece una solución de alta precisión y robusta para la segmentación clínica de pólipos, ofreciendo un valor significativo para el diagnóstico precoz de lesiones precancerosas colorrectales y apoyando la intervención asistida por ordenador.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El cáncer colorrectal es uno de los tumores malignos más comunes en todo el mundo, con tasas de incidencia y mortalidad consistentemente altas. Los estudios han demostrado que la mayoría de los cánceres colorrectales se desarrollan a partir de pólipos adenomatosos, un proceso que normalmente dura entre 10 y 15 años, proporcionando una valiosa ventana temporal para la detección e intervención precoz. Un aumento del 1% en la tasa de detección de adenomas (ADR) puede reducir el riesgo de cáncer colorrectal en aproximadamente un 3%, disminuyendo significativamente la mortalidad^{del paciente 1}. La colonoscopia, considerada el estándar de oro para el cribado del cáncer colorrectal, permite la extirpación directa de pólipos durante el examen, reduciendo así eficazmente la incidencia y mortalidad por cáncer.

Sin embargo, la colonoscopia convencional depende en gran medida de la experiencia y el nivel de habilidad de los endoscopistas. Factores como el juicio subjetivo, la fatiga visual y la distracción pueden provocar una tasa de fallo del 20%–30%, lo que afecta directamente a la efectividad del^{cribado 2}. Por ello, desarrollar sistemas de detección asistida por ordenador (CAD) para la segmentación automática de pólipos colorrectales tiene una importancia considerable para mejorar la ADR y reducir diagnósticos perdidos. Encuestas clínicas recientes han puesto de manifiesto aún más el interés en integrar la inteligencia artificial en los flujos de trabajo de evaluación endoscópica de lesiones, reforzando la necesidad de métodos de segmentación robustos^{y reproducibles.}

En los últimos años, el aprendizaje profundo ha logrado avances notables en el análisis de imágenes médicas, especialmente en redes neuronales convolucionales (CNN), que demuestran una gran capacidad en la extracción de características y representación para tareas de segmentación^{de imágenes 4}. Como modelo clásico de segmentación de imágenes médicas, U-Net emplea una arquitectura codificador-decodificador simétrica y conexiones de salto para lograr una segmentación precisa a nivel de píxel, convirtiéndose en un referente en este^{campo 5}. Basándose en U-Net, se han propuesto muchas arquitecturas mejoradas para abordar tareas complejas de segmentación de imágenes médicas. UNet++ reduce la brecha semántica entre los mapas de características del codificador y el decodificador introduciendo conexiones anidadas y de salto^{denso 6}. ResUNet++ integra bloques residuales, módulos de apretón y excitación, convoluciones dilatadas y mecanismos de atención, logrando un rendimiento sólido en segmentación de^{pólipos 7}. U^2-Net adopta una estructura anidada en forma de U de dos niveles para capturar información de características a múltiples^{escalas 8}. Más recientemente, se ha propuesto una red de segmentación profunda de pólipos basada en codificador-decodificador dual, que aprovecha rutas de codificación y decodificación paralelas para mejorar aún más la precisión de la^{segmentación 9}.

Mientras tanto, la introducción de mecanismos de atención ofrece nuevas soluciones para la mejora de características y la supresión del ruido. Attention U-Net emplea puertas de atención para enfocarse en regiones objetivo mientras suprime información de fondo irrelevante¹⁰. La Red de Doble Atención (DANet) pondera adaptativamente características tanto de las dimensiones de canal como^{espaciales 11}, mejorando la percepción de características críticas. Las Redes de Triple Atención (TANet) mejoran aún más el rendimiento de la segmentación mediante la selección adaptativa de características multiescala¹².

Con el éxito de las arquitecturas Transformer en procesamiento de lenguaje natural y visión^{por ordenador 13}, los investigadores han comenzado a explorar su aplicación en la segmentación de imágenes médicas. TransUNet fue el primero en emplear un Transformador como codificador para modelar dependencias de largo alcance de forma^{efectiva 14}. Swin-UNet adopta una arquitectura puramente Transformer y logra una agregación global eficiente de información mediante un mecanismo de ventana^{desplazada 15}. UTNet propone una arquitectura híbrida que combina la capacidad de extracción local de características de las CNN con la capacidad de modelado global de Transformers¹⁶.

En el campo de la segmentación de pólipos, Polyp-PVT utiliza un Transformer de visión piramidal para capturar información semántica global^{a escala múltiple 17}, mientras que UNet anidado a escala múltiple mejora la comprensión contextual integrando Transformers¹⁸. Estudios recientes también han explorado estrategias de aprendizaje por correlación negativa para la segmentación de pólipos entre^{dominios 19}, la mejora de segmentación aumentada con Gompertz²⁰ y arquitecturas basadas en la atención que incorporan guía de^{límites 21}. Aunque estos enfoques mejoran en cierta medida el rendimiento de la segmentación, la segmentación de pólipos aún enfrenta varios desafíos. En primer lugar, los pólipos presentan una gran heterogeneidad en morfología, tamaño y textura, que van desde micropólipos de menos de 5 mm hasta pólipos grandes que superan los 30 mm, con formas que varían desde circulares y elípticas hasta formas muy irregulares. En segundo lugar, el entorno intestinal es complejo y variable, donde los pliegues mucosos, los reflejos especulares, los residuos fecales y los restos de comida introducen una interferencia de fondo severa. En tercer lugar, muchos pólipos tienen límites difusos, pueden estar parcialmente ocluidos por pliegues o sumergidos en fluidos intestinales, lo que hace que la localización precisa de los límites sea extremadamente^{difícil 22.}

Los métodos existentes aún presentan limitaciones claras para abordar estos desafíos. Las CNN tradicionales son eficaces para extraer texturas locales y características de bordes; sin embargo, los núcleos de convolución cuadrada fija no son adecuados para capturar diversas formas geométricas²³, especialmente para pólipos muy irregulares, y no pueden modelar eficazmente características geométricas multidireccionales. Los métodos basados en transformadores pueden modelar dependencias globales, pero son menos efectivos para captar detalles locales finos e información de fronteras. Además, su alta complejidad computacional los hace menos adecuados para aplicaciones clínicas en tiempo^{real 24}. Enfoques recientes de segmentación de pólipos como PraNet, que utiliza módulos de atención inversa para refinar regiones clave²⁵, redes de atención en cascada guiadas por límites que mejoran la extracción de características^{de límite 26}, y CAFE-Net, que fusiona características codificadoras y decodificadoras mediante mecanismos^{de atención cruzada 27}, aún encuentran una representación insuficiente de características y una localización inexacta de los límites al tratar con pólipos^{pequeños 28}, límites difuminados y fondos complejos. Además, la mayoría de los métodos descuidan la morfología geométrica y no aprovechan plenamente la información contextual multidireccional, lo que resulta en una segmentación subóptima de pólipos de forma irregular.

En resumen, los métodos actuales basados en CNN carecen de la capacidad de capturar características geométricas multidireccionales debido a su dependencia de núcleos de convolución cuadrada fija. Los enfoques basados en transformadores ofrecen modelado global pero sacrifican la precisión local en el límite e imponen altos costes computacionales. Mientras tanto, las estrategias de fusión actuales con atención mejorada y multiescala no se han optimizado conjuntamente dentro de un marco unificado específicamente adaptado para la segmentación^{de pólipos 29}. Estas lagunas motivan el desarrollo de un método que aborda simultáneamente el modelado geométrico de características, la supresión adaptativa del ruido y la integración de características a escala cruzada.

Para abordar estos problemas, este protocolo presenta una Red de Segmentación de Pólipos basada en Convolución de Molinete y Doble Atención (PWD-Net). La red propuesta integra modelado geométrico de características, mejora de la atención multidimensional y fusión de características a múltiples escalas, permitiendo la segmentación precisa de pólipos complejos. Las principales contribuciones de este trabajo se resumen de la siguiente manera: el módulo de convolución en molinete (PCM), inspirado en la estructura de un molinillo, propone un novedoso diseño de núcleo de convolución rotado que captura características geométricas multidireccionales de los pólipos mediante operaciones de convolución en múltiples ángulos (0°, 45°, 90°, 135°, 180°, 225°, 270° y 315°). Este módulo sustituye la capa convencional de convolución en la etapa de cuello de botella, permitiendo una percepción efectiva de diversas orientaciones de bordes y mejorando significativamente la representación de pólipos de formas irregulares. El mecanismo de doble atención (DAM) aborda el ruido de fondo como pliegues, reflexiones y residuos fecales en las imágenes de colonoscopia. Se diseña un módulo de doble atención que integra la atención canalizada y la atención espacial. Integrado en conexiones de salto, este módulo suprime de forma adaptativa la interferencia de fondo y mejora las respuestas de características en regiones de pólipos al identificar conjuntamente "qué" es importante (dimensión del canal) y "dónde" se encuentra el objetivo (dimensión espacial), asegurando que solo las características refinadas estén involucradas en la fusión posterior. La estrategia de fusión de características multiescala (MSF) preserva tanto información semántica profunda como detalles superficiales de los límites mediante un mecanismo jerárquico introducido en el decodificador. Al integrar progresivamente características de codificadores mejorados con DAM con características de decodificador upamuestreado, esta estrategia compensa eficazmente la pérdida de detalle espacial causada por el muestreo descendente, permitiendo la detección precisa de pólipos pequeños y una delimitación precisa de los límites.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudio utiliza únicamente conjuntos de datos de imágenes de colonoscopia anonimizadas y disponibles públicamente (Kvasir-SEG). No se recogieron nuevos datos de sujetos humanos. No se requería la aprobación ética institucional ni el consentimiento informado del paciente, como confirman las políticas de revisión institucional para análisis retrospectivos de conjuntos de datos públicos desidentificados.

1. Preparación de datos

Descarga el conjunto de datos Kvasir-SEG desde el repositorio oficial 33 (https://datasets.simula.no/kvasir-seg/). El conjunto de datos contiene 1.000 imágenes de pólipos con las correspondientes máscaras de verdad a nivel de píxel.
Divide aleatoriamente el conjunto de datos en conjuntos de entrenamiento (800 imágenes), validación (100 imágenes) y test (100 imágenes) con una proporción de 8:1:1 usando una semilla aleatoria fija (semilla = 42). Verifica que no haya imágenes solapadas entre los tres subconjuntos para evitar fugas de datos.
Redimensionar todas las imágenes y máscaras correspondientes a 352 x 352 píxeles usando interpolación bilineal para imágenes y interpolación de vecinos más cercanos para máscaras.
Normaliza los valores de píxeles a [0, 1] dividiendo por 255, luego aplica la resta media de canal por canal de ImageNet (0,485, 0,456, 0,406) y la normalización por desviación estándar (0,229, 0,224, 0,225).
Aplicar las siguientes transformaciones de aumento solo al conjunto de entrenamiento (no a los conjuntos de validación o prueba): giro horizontal aleatorio (probabilidad = 0,5); giro vertical aleatorio (probabilidad = 0,5); rotación aleatoria (rango: −30° a +30°, probabilidad = 0,5); Redimensionamiento aleatorio de múltiples escalas (factor de escala: 0,75 a 1,25, probabilidad = 0,5)
NOTA: Aplicar transformaciones espaciales idénticas tanto a la imagen como a su correspondiente máscara para mantener la alineación. Verifica la corrección de la mejora inspeccionando visualmente varios pares imagen-máscara aumentados antes de iniciar el entrenamiento.

2. Arquitectura general

NOTA: Consulte la Figura 1 para la columna vertebral codificador-decodificador a nivel macro de PWD-Net, y la Figura 2 para la integración e interacción de módulos centrales dentro del flujo de características. La arquitectura general sigue un diseño codificador-decodificador en forma de U para manejar variaciones de escala de pólipos e interferencias de fondo en imágenes de colonoscopia.

Columna vertebral y camino de codificación (Figura 1)
1. Emplea un ResNet-50 preentrenado en ImageNet (procedente del zoológico oficial de modelos PyTorch) como codificador de backbone 30. Ajusta finamente todas las capas de codificadores durante el entrenamiento.
2. Introduce la imagen de colonoscopia de entrada (redimensionada a 352 x 352 píxeles) a través de cinco etapas de bloques convolucionales residuales para extraer características jerárquicas. La resolución espacial de los mapas de características se reduce progresivamente de a lo largo de las cinco etapas, mientras que las dimensiones del canal aumentan correspondientemente (64 → 128 → 256 → 512 → 1024).
3. En el cuello de botella (la capa de codificador más profunda), sustituye la capa convolucional estándar por el Módulo de Convolución Pinwheel (PCM, descrito en la Sección 3) para capturar la morfología geométrica global e información contextual multidireccional a baja resolución.
  NOTA: Las cinco etapas del codificador corresponden a los grupos estándar de capas ResNet-50: conv1, capa 1, capa 2, capa 3 y capa 4. Los pesos preentrenados proporcionan una inicialización robusta de características de bajo y medio nivel, reduciendo el tiempo de convergencia en conjuntos de datos médicos pequeños.
Componentes clave e interacción de características (Figura 2 y Figura 3)
1. Aplicar el Mecanismo de Doble Atención (DAM, descrito en la Sección 4) a la salida de cada etapa del codificador antes de transmitirlo al decodificador mediante conexiones de salto. Este paso suprime de forma adaptativa el ruido de fondo generado por los pliegues intestinales y las reflexiones especulares, mientras potencia la respuesta de características en las regiones de pólipos. Solo las características filtradas se pasan a la capa decodificadora correspondiente.
2. En el decodificador, se restaura progresivamente la resolución espacial mediante muestreo bilineal. En cada capa de decodificador, concatenar las características upmuestreadas de la etapa anterior con las características del codificador mejorado por DAM de la misma resolución espacial.
3. Aplicar dos capas convolucionales consecutivas (cada una seguida de normalización por lotes y activación de ReLU) para fusionar la información multiescala. Esto constituye la estrategia de Fusión de Características Multiescala (MSF) descrita en la Sección 5.
  NOTA: El decodificador avanza de capas profundas a superficiales (etapa 5 → etapa 1), asegurando que la información de localización semántica profunda y la información de detalle superficial del límite se integren eficazmente en cada nivel.
Generación de Producción
1. Aplicar una capa convolucional seguida de una función de activación sigmoidea a la salida final del decodificador para generar la máscara de predicción.
2. Binariza la máscara de predicción usando un umbral de 0,5 para obtener el resultado final de segmentación, donde los píxeles con probabilidad predicha ≥ 0,5 se clasifican como pólipos y los demás píxeles como fondo.

3. Módulo de convolución del molinete (Figura 3)

El Módulo de Convolución Pinwheel (PCM) reemplaza la convolución estándar de cuello de botella para capturar características geométricas multidireccionales de los pólipos. Implementa este módulo de la siguiente manera:
1. Definamos un núcleo de convolución base W de tamaño 3 x 3 con C_en los canales de entrada y C en los canales_{de salida} .
2. Definamos el conjunto de ángulos de rotación Θ = {0°, 45°, 90°, ..., 315°}. Para cada ángulo θ ∈ Θ, se genera el núcleo rotado W_θ aplicando una rotación basada en interpolación bilineal a W. Los ocho núcleos rotados comparten los mismos parámetros base; solo difiere la disposición espacial de los pesos.
3. Para cada ángulo θ, calcular el mapa de características específicas de dirección:
  
  donde X es el mapa de características de entrada.
4. Agrega los ocho mapas de características direccionales mediante concatenación canal a canal a lo largo del eje del canal, produciendo un tensor de dimensión (8 x_{C hacia fuera}) x H x W. Luego aplica una convolución 1 x 1 para reducir la dimensión del canal de nuevo a C_out, seguida de la normalización por lotes y la activación^{ReLU 31}:
  
  NOTA: La rotación y la interpolación se realizan sobre los pesos del núcleo, no sobre el mapa de características de entrada. Este diseño permite la extracción de características multidireccionales eficiente en parámetros sin aumentar la resolución de entrada. En la implementación actual, C_in = 1024 y C_out = 1024 en la etapa de cuello de botella, coincidiendo con la dimensión del canal de salida de la capa ResNet-50 4. Consulte el paquete de código suplementario para la implementación completa.

4. Mecanismo de doble atención (Figura 4)

NOTA: El Mecanismo de Doble Atención (DAM) está integrado en cada conexión de salto para suprimir el ruido de fondo y realzar las características de la región de pólipos tanto en el canal como en las dimensiones espaciales.

Atención al canal
La rama de atención de canales identifica qué canales de características son más informativos. Dada una característica de entrada F ∈ R^C×H×W:
1. Comprime las dimensiones espaciales mediante Global Average Pooling para obtener un descriptor de canal z ∈ R^C×1×1.
2. Pasa z a través de una MLP de dos capas (capas totalmente conectadas) con una relación de reducción r = 16. La primera capa reduce la dimensión de C a C/16 con activación de ReLU; la segunda capa lo restaura de C/16 a C con activación sigmoide para producir el vector de peso del canal A_c:
  
  donde δ denota ReLU y σ denota Sigmoide.
Atención espacial
La rama de atención espacial localiza dónde están las regiones objetivo:
1. Aplica tanto el agrupamiento máximo como el promedio a lo largo de la dimensión del canal para generar dos mapas de características 2D de tamaño 1 x H x W.
2. Concatena los dos mapas a lo largo del eje del canal para formar un tensor de 2 x H x W. Aplicar una capa convolucional de 7 x 7 seguida de una activación sigmoide para producir el mapa de pesos espaciales A_s ∈ R^1×H×W:
Fusión de características
1. Fusiona las salidas de canal y atención espacial con la característica de entrada mediante multiplicación elemento:
  
  donde α y β son coeficientes de equilibrio aprendibles, ambos inicializados a 0,5 y actualizados conjuntamente con los parámetros de la red mediante optimización basada en gradientes durante el entrenamiento.
  NOTA: Consulte el paquete de código suplementario (dam_module.py) para la implementación completa.

5. Fusión de características a escala múltiple

Aplicar la estrategia de fusión de características multiescala (MSF) en el decodificador para abordar la pérdida de detalles espaciales en características profundas. En cada etapa del decodificador, realiza lo siguiente:
Muestrea el mapa de características de la etapa decodificadora anterior por un factor de 2 usando interpolación bilineal.
Concatena las características upmuestreadas con las características del codificador mejorado por DAM de la resolución espacial correspondiente a lo largo del eje del canal.
Aplicar dos capas convolucionales consecutivas de 3 x 3 (cada una seguida de normalización por lotes y activación^{ReLU 32}) para fusionar las características concatenadas.
NOTA: Esta fusión entre niveles asegura que los detalles de los límites de los pólipos (proporcionados por las características superficiales del codificador) y la localización semántica (proporcionada por las características profundas) se preserven simultáneamente, generando resultados de segmentación de grano fino.

6. Función de pérdida y configuración de entrenamiento

Función de pérdida
1. Se adopta una función de pérdida híbrida L_total para optimizar conjuntamente la red, abordando el desequilibrio ubicuo entre primer plano y clase de fondo en la segmentación de pólipos.
  La Pérdida de Entropía Cruzada Binaria (L_BCE) mide la precisión de clasificación a nivel de píxel:
  
  donde N es el número total de píxeles, y_i ∈ {0,1} es la etiqueta de verdad fundamental, y ŷ_i ∈ [0,1] es la probabilidad predicha.
2. La pérdida de dados (L_Dice) cuantifica la similitud entre las regiones predichas y las regiones de verdad fundamental:
  
  donde ε es un factor de suavizado (fijado a 1 x 10⁻⁵) para evitar la división por cero.
  Fija λ = 0,5 para equilibrar las contribuciones de los dos términos de pérdida.
Configuración de entrenamiento
1. Inicializa el codificador con pesos ResNet-50 preentrenados por ImageNet. Inicializar todas las capas de decodificador, PCM y parámetros DAM usando la inicialización uniforme de Kaiming.
2. Configura el optimizador y el calendario de entrenamiento de la siguiente manera. Usa el optimizador de Adam con β₁ = 0,9 y β₂ = 0,999. Establece la tasa inicial de aprendizaje a 1 x 10⁻⁴. Aplica un programa de tasa de aprendizaje de recocido coseno con_{T máximo} = 50 y η_mínimo = 1 x 10⁻⁶. Usa un lote de 16 y entrena el modelo para 50 épocas.
3. Entrena el modelo durante 50 épocas en el conjunto de entrenamiento (800 imágenes). Al final de cada época, evalúa el modelo en el conjunto de validación (100 imágenes) usando el coeficiente de Dice como métrica principal de monitorización.
4. Guarda el punto de control del modelo que alcanza el coeficiente de dados más alto en el conjunto de validación. Utiliza este punto de control como modelo final para todas las evaluaciones posteriores en el conjunto de pruebas.
  NOTA: No se aplica explícitamente la detención anticipada. La estrategia de selección de puntos de control de los mejores dados de validación sirve como criterio de selección de modelo. Todos los experimentos se realizan utilizando el entorno de hardware y software especificado en la Tabla de Materiales. El entrenamiento para 50 épocas en 800 imágenes lleva aproximadamente 2 horas bajo la configuración descrita. Todos los resultados reportados se obtienen de una única partida de entrenamiento utilizando la semilla aleatoria especificada (semilla = 42). Consulte el paquete de código suplementario para el script completo de entrenamiento.

7. Pseudocódigo

Utiliza el Algoritmo 1 como el mapa completo del flujo de trabajo para PWD Net. Compara los bloques PCM, DAM, arquitectura principal y pipeline de entrenamiento en el algoritmo con los archivos correspondientes en el paquete de código suplementario.
Implementa el bloque PCM mostrado en las líneas 4 a 12. Definimos un núcleo de convolución base 3 x 3 y generamos ocho núcleos rotados a 0°, 45°, 90°, 135°, 180°, 225°, 270° y 315° usando interpolación bilineal.
Mantén los mismos parámetros base aprendibles para todos los kernels PCM rotados. Para cada ángulo de rotación, calcular un mapa de características específico en la dirección.
Concatena los ocho mapas de características PCM a lo largo de la dimensión del canal. Aplica una convolución 1 x 1, normalización por lotes y activación de ReLU para restaurar la dimensión original del canal.
Implementa el bloque DAM mostrado en las líneas 14 a 19. Aplica Global Average Pooling para generar el descriptor de canal y luego pásalo a través de un MLP de dos capas con una relación de reducción de 16 para obtener los pesos del canal.
Genera el mapa de atención espacial aplicando el pool promedio por canal y el pool máximo a la característica de entrada. Concatena ambos mapas y procesalos con una convolución de 7 x 7 seguida de una activación sigmoide.
Fusiona el canal DAM y las salidas de atención espacial con la característica de entrada usando multiplicación elemento por elemento. Pondera los dos mapas de atención con coeficientes aprendibles α y β, ambos inicializados a 0,5.
Construye la arquitectura principal de PWD Net mostrada en las líneas 21 a 32. Pasar la imagen de entrada por cinco etapas de un codificador ResNet 50 preentrenado para obtener de e1 a e5, con una resolución espacial que disminuye de H x W a H/32 x W/32.
Aplica PCM a e5 en el cuello de botella. Aplica DAM a e1 a e4 antes de enviar estas características al decodificador a través de conexiones de salto.
Descifra el mapa de características de capas profundas a superficiales. En cada nivel de decodificador, se utiliza un upsampling de la característica anterior, concatenala con la característica de codificador mejorado DAM correspondiente y se aplica DoubleConv para la fusión de características.
Genera la salida de segmentación con una convolución 1 x 1 seguida de una activación sigmoide. Utiliza el mapa de probabilidad de píxel resultante como máscara predicha.
Implementa el bucle de entrenamiento mostrado en las líneas 34 a 39. En cada época, ejecuta la propagación hacia adelante a través de PWD Net y calcula la máscara predicha.
Calcula la pérdida de entrenamiento como 0,5 x pérdida BCE más 0,5 x pérdida de dados. Actualiza todos los parámetros aprendibles con el optimizador Adam mediante retropropagación.

Algoritmo 1: Segmentación de pólipos PWD-Net
1: Entrada: Imagen de colonoscopia I ∈^{R H×W×3}
2: Salida: Máscara de segmentación M ∈ {0,1}^(H×W)
3:
4: función Módulo de convolución PCM(X) ▷ Pinwheel
5: Definamos núcleo base W (3 x 3), ángulos Θ = {0°, 45°, ..., 315°}
6: para cada θ ∈ Θ do
7: W_θ ← BilinearRotate(W, θ) ▷ Rotate kernel
8: Y_θ ← Conv2d(X,_{W θ}) ▷ Características específicas de la dirección
9: fin para
10: Y_out ← ReLU(BN(Conv1 x 1(Concat({Y_θ})))) ▷ Aggregate
11: devuelve Y_fuera
12: función final
13:
14: función DAM(F) ▷ Mecanismo de doble atención
15: A_c ← Sigmoide(MLP(AvgPool(F))) ▷ Atención de canal (r=16)
16: A_s ← Sigmoide(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Atención espacial
17: F' ← F ⊗ (α · A_c + β · A_s) ▷ Fusionar con α aprendible, β (init=0,5)
18: Regreso F'
19: función final
20:
21: función PWD-Net(I)
22: Codificador: e₁,_{e 2},_{e 3},_{e 4},_{e 5} ← ResNet50_Stages(I) ▷ codificador preentrenado de 5 etapas
23: Cuello de botella: b ← PCM(e₅) ▷ Aplicar PCM en cuello de botella
24: Saltar conexiones: s_i ← DAM(_{e i}) para i = 1, 2, 3, 4 ▷ Características del codificador de filtro
25: Decodificador:
26: _{d 4} ← DoubleConv(Concat(Up(b),_{s 4}))
27: _{d 3} ← DoubleConv(Concat(Up(_{d 4}), s₃))
28: _{d 2} ← DoubleConv(Concat(Up(_{d 3}), s₂))
29: _{d 1} ← DoubleConv(Concat(Up(d₂), s₁))
30: M ← Sigmoid (Conv1 x 1(d₁))
31: regreso M
32: función final
33:
34: Entrenamiento:
35: para cada época haz
36: M̂ ← PWD-Net(I)
37: L ← 0,5 · A.C. (M̂,_{M gt}) + 0,5 · Pérdida de dados (M̂,_{M gt}) ▷ λ = 0,5

38: Actualizar parámetros mediante retropropagación (Adamoptimizar r)
39: fin para

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Montaje experimental
Conjunto de datos

El conjunto de datos Kvasir SEG se utilizó para evaluar el comportamiento de segmentación de PWD Net en imágenes de colonoscopia con apariencias heterogéneas de pólipos. El conjunto de datos contiene imágenes de pólipos anotadas de 1.000 píxeles e incluye variaciones en tamaño, forma, textura, iluminación y complejidad de fondo de pólipo, lo que lo hace adecuado para evaluar la detección de objetivos pequeños, la localización de límites y la robustez frente a interferencias visuales. El conjunto de datos se dividió en subconjuntos de entrenamiento, validación y prueba, y el conjunto final de prueba se utilizó únicamente para la evaluación del rendimiento. La distribución de las imágenes se resume en la Tabla 1.

Detalles de implementación

Los ajustes de implementación requeridos para la reproducibilidad se resumen en la Tabla 2, y los detalles completos del procedimiento se proporcionan en los pasos de Preparación de Datos y la Sección 5.2 del Protocolo. Para interpretar los resultados, todos los experimentos reportados utilizaron la misma resolución de entrada, entorno hardware y condiciones de evaluación listadas en la Tabla de Materiales. Los valores reportados se basan en el punto de control de dados de validación seleccionado de una sola secuencia usando semilla = 42, por lo que los resultados deben interpretarse como rendimiento bajo una división experimental fija en lugar de como resultados promedios de validación cruzada.

Métricas de evaluación

El rendimiento de segmentación se evaluó utilizando el coeficiente de Dice, la intersección sobre la unión, la precisión a nivel de píxel y la velocidad de inferencia. El coeficiente de dados y la intersección sobre la unión se utilizaron como métricas principales basadas en solapamientos porque reflejan directamente la concordancia entre la máscara predicha y la región de pólipos anotada por expertos. La precisión a nivel de píxel se reportó como medida complementaria porque las imágenes de colonoscopia suelen contener grandes regiones de fondo. Se incluyó la velocidad de inferencia, reportada en fotogramas por segundo, para evaluar si el modelo mantiene la eficiencia computacional práctica mientras mejora la calidad de la segmentación.

Comparación con métodos existentes
Para demostrar el comportamiento y la efectividad de PWD-Net, se realiza una comparación con cinco métodos representativos de segmentación de pólipos: CBSA (Red de Atención Espacial Potenciada por Canal)³⁴, FSSA (Red de Atención Espacial Compartida Características), MSF (Red de Fusión Multi-Escala), Pinwheel-Conv (línea base de convolución en molinete sin módulos de atención ni fusión) y PolaLinear (Red de atención lineal polarizada). Todos los métodos de comparación se reimplementan usando sus códigos fuente oficialmente publicados y se entrenan en el mismo conjunto de entrenamiento Kvasir-SEG (800 imágenes) bajo idénticos preprocesamientos, resolución de entrada (352 x 352) y ajustes de evaluación para garantizar una comparación justa. La Tabla 3 presenta los resultados cuantitativos en el conjunto de pruebas.

Como se muestra en la Tabla 3, PWD-Net alcanza un coeficiente de dados de 0,865 y un IoU de 0,765, lo que representa mejoras del 1,8% en Dice y del 4,8% en IoU en comparación con el siguiente mejor método (CBSA). Cabe destacar que PWD-Net logra esto con parámetros de 9,1M, frente a 18,4M para CBSA, lo que indica una eficiencia favorable. Aunque PolaLinear y Pinwheel-Conv ofrecen velocidades de inferencia más rápidas (79 y 72 FPS, respectivamente), su precisión de segmentación es notablemente menor, lo que sugiere que PWD-Net proporciona un equilibrio razonable entre precisión y coste computacional para el conjunto de datos evaluado. Para ilustrar el comportamiento cualitativo de segmentación, se seleccionan cinco muestras representativas de prueba que cubren pólipos pequeños, pólipos grandes, fondos complejos y límites difuminados para su comparación visual. La Figura 5 presenta los resultados de segmentación de cuatro métodos de comparador seleccionados (CBSA, FSSA, MSF y PWD-Net) junto con la verdad de base. Cada columna de predicción está etiquetada con el nombre correspondiente del método. Pinwheel-Conv y PolaLinear se omiten de esta cifra por mayor claridad visual, ya que su rendimiento cuantitativo es sustancialmente menor; esta figura representa, por tanto, un subconjunto seleccionado de los métodos comparados en la Tabla 3.

Como se muestra en la Figura 5, en escenarios de pólipos pequeños (primera y quinta fila), FSSA y MSF presentan detecciones fallidas, mientras que PWD-Net captura los objetivos de forma más completa. En escenarios de pólipos grandes (segunda y tercera fila), CBSA y FSSA producen irregularidades notables en los límites, mientras que PWD-Net genera límites más suaves. En el escenario de frontera difuminada (cuarta fila), PWD-Net demuestra una supresión efectiva del ruido de fondo mediante el mecanismo de doble atención.

Estudio de ablación
Para analizar la contribución de cada componente central en PWD-Net, se realiza un estudio sistemático de ablación. Utilizando ResNet-50 como codificador principal para formar el modelo base, se incorporan de forma incremental el Módulo de Convolución Pinwheel (Pinwheel), el Mecanismo de Doble Atención (Dual-Attn) y el módulo Multi-Scale Feature Fusion (MSF). La Tabla 4 resume los resultados cuantitativos.

Los principales hallazgos de la Tabla 4 pueden resumirse de la siguiente manera. Primero, añadir cualquier módulo individual mejora el rendimiento del modelo base. El Mecanismo de Doble Atención aporta las mejoras más notables (Dados: +2,0%, IoU: +2,7%), apoyando la eficacia de la supresión adaptativa del ruido. El Módulo de Convolución Pinwheel aporta una mejora del 1,6% en Dice, lo que indica el beneficio de la extracción de características multidireccionales para formas irregulares de pólipos. Segundo, combinar la Convolución del Pinwheel y el Mecanismo de Doble Atención aumenta aún más el rendimiento a Dados = 0,858 y IoU = 0,748, sugiriendo complementariedad entre ambos módulos. Finalmente, el PWD-Net completo (integrando los tres módulos) logra el mejor rendimiento observado (Dice = 0,865, IoU = 0,765), con mejoras del 3,3% y 6,0%, respectivamente, en comparación con la línea base, demostrando la contribución de cada componente propuesto en este conjunto de datos.

Análisis del proceso de formación
Para ilustrar la dinámica de entrenamiento y las características de convergencia de PWD-Net, se registran y visualizan métricas clave de rendimiento a lo largo de 50 épocas de entrenamiento. La Figura 6 muestra las variaciones de la función de pérdida, el coeficiente de dados, la IoU y la precisión durante el entrenamiento.

Como se muestra en la Figura 6(a), tanto la pérdida de entrenamiento como la pérdida de validación disminuyen rápidamente en las primeras 10 épocas y luego se estabilizan gradualmente. La pérdida de validación sigue siendo ligeramente superior a la pérdida de entrenamiento en todo el tiempo, pero ambas curvas siguen una tendencia consistente con una pequeña brecha, lo que indica que el modelo no sufre un sobreajuste severo. La Figura 6(b) muestra que el coeficiente de Dice aumenta bruscamente en la etapa inicial de entrenamiento, converge después aproximadamente de la época 30 y se estabiliza por encima de 0,86. La curva IoU en la Figura 6(c) muestra una tendencia de crecimiento similar, alcanzando alrededor de 0,765 en la fase final de entrenamiento. La Figura 6(d) indica que la precisión converge por encima del 94%. Las tendencias estables de validación en las etapas intermedia y avanzada de entrenamiento sugieren que la estrategia adoptada de aumento de datos y el calendario de recocido coseno contribuyen a mitigar el sobreajuste en este conjunto de datos.

Rendimiento en tamaños de pólipos
Para evaluar aún más la aplicabilidad de PWD-Net en diferentes escenarios clínicos, el conjunto de pruebas (100 imágenes) se divide en tres categorías según la proporción del área de pólipos respecto al área total de la imagen: pólipos pequeños (< 5%), pólipos medianos (5%–30%) y pólipos grandes (> 30%). Esta clasificación refleja la influencia de la escala de pólipos en la dificultad de segmentación. La Tabla 5 presenta el rendimiento cuantitativo en cada categoría. Como se muestra en la Tabla 5, PWD-Net logra el mejor rendimiento en la categoría de pólipos medios (Dados = 0,882, IoU = 0,790), lo cual es consistente con la mayor representación de esta categoría (54 de 100 imágenes de prueba). El rendimiento en pólipos grandes se mantiene en un nivel comparable (Dados = 0,861, IoU = 0,760). El rendimiento en pólipos pequeños es relativamente inferior (dados = 0,812, IoU = 0,685), principalmente porque los objetivos pequeños ocupan una pequeña proporción de la imagen y son más susceptibles al ruido de fondo con información de límite más escasa.

Estos resultados sugieren que la capacidad de captura de características multidireccional del Módulo de Convolución Pinwheel y la capacidad de localización espacial del Mecanismo de Doble Atención contribuyen a mantener una calidad razonable de segmentación a través de diferentes escalas de pólipos en el conjunto de pruebas evaluado.

figure-results-1
Figura 1: Marco del modelo PWD-Net. Marco estructural general de la propuesta Polyp Segmentation Network basada en Convolución en Molinete y Doble Atención (PWD-Net), ilustrando el codificador (ResNet-50), el cuello de botella (PCM), conexiones de salto mejoradas con DAM, el decodificador MSF y la generación de salida para la segmentación colorrectal de pólipos. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

figure-results-2
Figura 2: Diagrama de flujo general de arquitectura de PWD-Net. Diagrama de flujo detallado de la arquitectura completa de PWD-Net, mostrando el codificador ResNet-50 de cinco etapas, el cuello de botella PCM, las conexiones de salto DAM, el decodificador de fusión de características a escala múltiple y la generación final de predicción. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

figure-results-3
Figura 3: Diagrama esquemático del módulo de convolución del molinito. Esquema estructural y operacional del Módulo de Convolución Pinwheel, que demuestra núcleos de convolución rotados en múltiples ángulos, rotación basada en interpolación bilineal, concatenación de canales y agregación de convoluciones 1 x 1. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

figure-results-4
Figura 4: Diagrama estructural del mecanismo de doble atención. Diagrama arquitectónico del DAM, mostrando la rama paralela de atención del canal (Global Average Pooling → MLP con razón de reducción r = 16 → Sigmoide) y la rama de atención espacial (agrupación canal por canal → convolución 7 x 7 → sigmoide), seguida de fusión ponderada con coeficientes aprendibles α y β. Por favor, haga clic aquí para ver una versión ampliada de esta figura.

figure-results-5
Figura 5: Comparación cualitativa de los resultados de la segmentación. Cada fila representa una muestra de prueba. Columnas de izquierda a derecha: Imagen de entrada, Ground Truth, CBSA, FSSA, MSF y PWD-Net (Nuestro). Pinwheel-Conv y PolaLinear se omiten de esta figura por mayor claridad visual; véase la Tabla 3 para la comparación cuantitativa completa. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

figure-results-6
Figura 6: Curvas de entrenamiento de PWD-Net a lo largo de 50 épocas. (a) Pérdida de entrenamiento y validación. (b) Coeficiente de dados. (c) Intersección sobre Union (IoU). (d) Precisión a nivel de píxel. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Subconjunto de Entrenamiento	Número de muestras	Proporción
Tren	800	80%
Conjunto de validación	100	10%
Conjunto de pruebas	100	10%
Total Set	1000	100%

Tabla 1: Estadísticas de conjuntos de datos. Distribución dividida del conjunto de datos para el conjunto de datos Kvasir-SEG (1.000 imágenes en total), mostrando el número de imágenes y la proporción asignadas a los subconjuntos de entrenamiento, validación y prueba (semilla aleatoria = 42).

Categoría	Ítem de parámetro	Configuración de parámetros
Marco de Aprendizaje Profundo	Marco	PyTorch
Entorno de hardware	GPU	NVIDIA Tesla P100
Método de aceleración	Aceleración de GPU	CUDA
Configuración de entrada	Tamaño de la imagen de entrada	352 × 352
Formato de imagen	Formato de imagen	Imagen RGB
Optimizador	Optimizador	Adam
Tasa inicial de aprendizaje	LR inicial	1 × 10⁻⁴
Tamaño del lote	Tamaño del lote	16
Épocas de entrenamiento	Épocas	50
Función de pérdida	Función de pérdida	Pérdida de dados + AC

Tabla 2: Ajustes de parámetros experimentales. Configuración experimental de parámetros para el entrenamiento y evaluación de PWD-Net. Consulte los pasos de Preparación de Datos y la Sección 5.2 del Protocolo para el procedimiento completo de implementación paso a paso.

Método	Dados ↑	IoU ↑	Precisión ↑	Parámetros (M) ↓	FPS ↑
CBSA	0.8466	0.717	0.9325	18.4	36
FSSA	0.7109	0.551	0.9012	9.8	61
MSF	0.7337	0.585	0.9086	11.5	54
Pinwheel-Conv	0.8007	0.6742	0.9401	7.9	72
PolaLinear	0.7213	0.5707	0.9113	6.6	79
PWD-Net (Nuestro)	0.865	0.7651	0.9478	9.1	63

Tabla 3: Resultados de comparación cuantitativa. Comparación cuantitativa de PWD-Net con cinco métodos existentes de segmentación de pólipos en el conjunto de pruebas Kvasir-SEG (100 imágenes). Todos los métodos se evalúan bajo divisiones de datos, preprocesamiento y resolución de entrada idénticos (352 x 352). ↑ indica que más alto es mejor; ↓ indica que más bajo es mejor. Los métodos marcados con * indican resultados citados de la publicación original en lugar de reimplementados.

Configuración	Pineta	Dual-Attn	MSF	Dados ↑	IoU ↑
Línea base	×	×	×	0.832	0.705
+ Pinwheel	√	×	×	0.848	0.725
+ Dual-Attn	×	√	×	0.852	0.732
+ MSF	×	×	√	0.844	0.72
+ Pinwheel + Doble Atención	√	√	×	0.858	0.748
Completo (PWD-Net)	√	√	√	0.865	0.765

Tabla 4: Resultados del estudio de ablación. Resultados del estudio de ablación en el conjunto de pruebas Kvasir-SEG, mostrando la contribución incremental del Módulo de Convolución Pinwheel (Pinwheel), el Mecanismo de Doble Atención (Dual-Attn) y la Multi-Scale Feature Fusion (MSF) al codificador base ResNet-50.

Tipo de pólipo	Número	Dados ↑	IoU ↑
Pólipos pequeños (< 5%)	21	0.812	0.685
Pólipos medios (5%–30%)	54	0.882	0.79
Pólipos grandes (> 30%)	25	0.861	0.76

Tabla 5: Rendimiento de PWD-Net en diferentes tipos de pólipos. Rendimiento de PWD-Net en diferentes categorías de tamaño de pólipo dentro del conjunto de pruebas Kvasir-SEG (100 imágenes). El tamaño del pólipo se define por la proporción del área del pólipo respecto al área total de la imagen.

Archivo suplementario: Archivo comprimido que contiene la implementación del marco PWD-Net. El archivo incluye model.py definir la arquitectura de red con el Módulo de Convolución Pinwheel (PCM) y el Mecanismo de Doble Atención (DAM), train.py implementar la cadena de carga de datos, la función de pérdida y el procedimiento de entrenamiento, test.py para la inferencia y evaluación de modelos en conjuntos de datos de prueba, y requirements.txt listando todas las librerías Python requeridas y sus versiones correspondientes. Por favor, haga clic aquí para descargar este archivo.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Varias opciones de diseño en el protocolo PWD-Net son fundamentales para lograr resultados de segmentación fiables y merecen una atención cuidadosa durante la implementación. Primero, la selección e inicialización de la columna vertebral del codificador influye directamente en el comportamiento de convergencia y el rendimiento final. El protocolo emplea un codificador ResNet-50 preentrenado en ImageNet, que proporciona una inicialización robusta de características de bajo y nivel medio. Esto es especialmente importante para tareas de segmentación de imágenes médicas donde los datos de entrenamiento disponibles son limitados (800 imágenes en el presente estudio). Afinar finamente todas las capas del codificador, en lugar de congelarlas, permite a la red adaptar las características preentrenadas a las características específicas de las imágenes de colonoscopia, como texturas mucosas y reflexiones especulares. En segundo lugar, la colocación de cada módulo central dentro de la arquitectura es intencionada. El Módulo de Convolución Pinwheel (PCM) se sitúa en el cuello de botella, donde la resolución espacial es más baja pero la información semántica es más rica, lo que permite capturar de forma eficiente patrones geométricos globales sin un coste computacional excesivo. El Mecanismo de Doble Atención (DAM) está integrado en las conexiones de salto en lugar de en el decodificador, asegurando que el ruido de fondo se suprima antes de que las características se transmitan al decodificador, evitando que las características contaminadas se propaguen a través de las etapas de fusión. El estudio de ablación (Tabla 4) respalda este diseño: el DAM aporta la mayor ganancia individual de rendimiento (Dados: +2,0%), lo que confirma la importancia de la supresión temprana del ruido en la cadena de características. Tercero, la función de pérdida híbrida (0,5 · A.C. + 0,5 · Dice) equilibra la precisión de la clasificación a nivel de píxel con la optimización de solapamiento a nivel regional. Esta combinación es especialmente relevante para la segmentación de pólipos, donde el desequilibrio de clases entre primer plano y fondo es común. Se adopta la ponderación igual (λ = 0,5) como predeterminada; puede ser necesario ajustar esta proporción para conjuntos de datos con diferentes distribuciones de clases (véase Solución de problemas más abajo).

Modificaciones y solución de problemas
Se proporcionan las siguientes modificaciones y directrices de solución de problemas para adaptar el protocolo a diferentes entornos experimentales. Al aplicar el protocolo a conjuntos de datos con diferentes resoluciones de imagen o distribuciones de tamaño de pólipo, la resolución de entrada (352 x 352) puede necesitar ajuste. Tamaños de entrada más grandes pueden mejorar la detección de pólipos pequeños a costa de un mayor consumo de memoria y una menor velocidad de inferencia. Si la pérdida de entrenamiento no converge en 50 épocas, considera reducir la tasa inicial de aprendizaje (por ejemplo, a 5 x 10⁻⁵) o aumentar la longitud del ciclo de recocido coseno. Si el modelo muestra altas tasas de falsos positivos en regiones con reflexiones especulares severas o pliegues mucosos, aumentar el peso del componente de pérdida de dados (por ejemplo, λ = 0,4 para BCE, 0,6 para dados) puede mejorar la precisión de los límites a costa de la precisión a nivel de píxel. Por el contrario, si el modelo subsegmenta pólipos pequeños, aumentar el peso BCE puede ayudar. El número de ángulos de rotación en el PCM (actualmente ocho, de 0° a 315° en incrementos de 45°) representa un equilibrio entre la cobertura direccional y el coste computacional. Reducir a cuatro ángulos (0°, 90°, 180°, 270°) disminuye el cálculo pero puede disminuir la sensibilidad a los límites oblicuos de pólipos. La razón de reducción r = 16 en la rama de atención de canal del DAM sigue la convención establecida por redes previas de compresión y^{excitación 32}; Proporciones más pequeñas (por ejemplo, r = 8) aumentan la capacidad del modelo pero pueden llevar a un sobreajuste en conjuntos de datos pequeños. Para conjuntos de datos significativamente mayores que Kvasir-SEG, considera aumentar el tamaño del lote y las épocas de entrenamiento en consecuencia, y monitorizar métricas de validación para determinar el punto de parada adecuado.

Importancia relativa a métodos alternativos
La arquitectura PWD-Net aborda limitaciones específicas de los enfoques existentes mediante tres módulos complementarios. En comparación con métodos que dependen de núcleos convolucionados cuadrados estándar, el PCM proporciona sensibilidad direccional mediante núcleos rotados en múltiples ángulos, lo que permite una mejor adaptación a la morfología irregular y diversa de los pólipos colorrectales. En comparación con los mecanismos de atención unidimensionales (por ejemplo, atención solo por canal en redes de apretón y^{excitación 33}), el DAM modela conjuntamente la importancia del canal y espacial, ofreciendo una supresión del ruido más completa en el entorno complejo de colonoscopia. En comparación con arquitecturas basadas en transformadores como TransUNet³⁴ y^{Polyp-PVT 35}, que ofrecen un sólido modelado global pero a un coste computacional mayor, PWD-Net logra un rendimiento competitivo con un tamaño de modelo relativamente compacto (9,1 millones de parámetros) y una velocidad de inferencia práctica (63 FPS), como se documenta en la Tabla 3.

Cabe señalar que las comparaciones presentadas en este estudio (Tabla 3) se realizan bajo condiciones controladas con divisións de datos, preprocesamiento y protocolos de evaluación idénticos. Las diferencias de rendimiento observadas son específicas del conjunto de pruebas Kvasir-SEG (100 imágenes) utilizado en este estudio y pueden no generalizarse directamente a otros conjuntos de datos o entornos clínicos. Una comparación más amplia que incorpore líneas base establecidas adicionales (por ejemplo, PraNet³⁶, ResUNet++³⁷) bajo benchmarks estandarizados de múltiples conjuntos de datos reforzaría aún más la evidencia y está prevista para trabajos futuros. Trabajos recientes sobre arquitecturas codificador-decodificador dual para segmentación de^{pólipos 38} han demostrado el potencial de los caminos de codificación y decodificación paralelos. La arquitectura PWD-Net se diferencia por centrarse en el modelado geométrico rotacional y el filtrado de doble atención dentro de una única tubería codificador-decodificador, representando una filosofía de diseño complementaria.

Deben reconocerse varias limitaciones importantes de este estudio. En primer lugar, en cuanto al alcance experimental, el estudio actual informa de los resultados exclusivamente sobre el conjunto de datos Kvasir-SEG con una única división aleatoria de 800 imágenes de entrenamiento, 100 de validación y 100 de prueba. El tamaño del conjunto de pruebas (100 imágenes) es relativamente pequeño, y solo se reporta una única ejecución de entrenamiento sin experimentos repetidos ni validación cruzada. En consecuencia, las métricas de rendimiento reportadas pueden estar sujetas a variaciones relacionadas con la división específica de datos. Los trabajos futuros deberían incorporar la validación cruzada k-fold o múltiples desvíos aleatorios con desviaciones estándar reportadas para proporcionar estimaciones de rendimiento más robustas. En segundo lugar, la PCM introduce una sobrecarga computacional adicional mediante rotación y agregación del núcleo multiángulo. Aunque el modelo general sigue siendo compacto (9,1 millones de parámetros), el despliegue en dispositivos con recursos limitados en entornos clínicos puede requerir una optimización adicional mediante técnicas como la destilación de conocimiento o la poda de modelos. En tercer lugar, el modelo se entrena y evalúa exclusivamente con imágenes estáticas, mientras que la colonoscopia clínica implica flujos de vídeo en tiempo real en los que la apariencia, el tamaño y el punto de vista de los pólipos cambian dinámicamente a lo largo de fotogramas consecutivos. Aunque la velocidad de inferencia de 63 FPS es compatible con tasas de fotogramas en tiempo real, esta métrica por sí sola no constituye validación clínica. Sería necesaria la validación prospectiva de datos de vídeo endoscópico, estudios de lectores y análisis posteriores de endpoints clínicos antes de poder hacer cualquier afirmación de preparación clínica 39,40,41. El trabajo actual debe entenderse como una contribución metodológica más que como un sistema clínicamente validado.

En cuarto lugar, la vía de traducción clínica para la segmentación asistida por IA de pólipos va mucho más allá de la precisión de segmentación. Revisiones recientes han destacado que las herramientas avanzadas de imagen y análisis deben integrarse dentro de flujos de trabajo endoluminales más amplios, incluyendo la clasificación de lesiones, la estadificación y la planificación del tratamiento. El protocolo actual se centra exclusivamente en la segmentación binaria de pólipos y no aborda la clasificación^{patológica 42} (por ejemplo, pólipos adenomatosos vs. hiperplásicos) ni la evaluación del riesgo de malignidad, que son esenciales para guiar decisiones clínicas. Quinto, los conjuntos de datos utilizados en este estudio se derivan principalmente de colonoscopias en adultos. No se representan datos sobre pólipos pediátricos, pólipos asociados a enfermedad inflamatoria intestinal y otros tipos patológicos especiales. La generalizabilidad del modelo a estas poblaciones sigue sin comprobarse. En sexto lugar, aunque se proporcionan experimentos de ablación y visualizaciones cualitativas para ilustrar la función de cada módulo, la interpretabilidad del modelo sigue siendo limitada. El proceso de toma de decisiones de los modelos de aprendizaje profundo no es completamente transparente, lo que puede afectar la confianza y adopción de los clínicos. Trabajos futuros podrían incorporar técnicas de visualización basadas en gradientes para proporcionar explicaciones más intuitivas de las predicciones^{de modelos 43}.

A pesar de las limitaciones mencionadas anteriormente, el protocolo PWD-Net proporciona un marco reproducible para la segmentación de pólipos que puede servir como base para un desarrollo futuro. Las posibles indicaciones incluyen: extender el modelo al análisis de colonoscopia basado en vídeo incorporando técnicas de modelado temporal; añadir una rama de clasificación para segmentación de extremo a extremo y tipificación patológica; ampliar la evaluación a conjuntos de datos multicéntricos más grandes y diversos; y explorar la integración dentro de plataformas robóticas endoluminales, donde el análisis de imágenes asistido por IA es cada vez más reconocido como una tecnología clave^{para habilitar 44,45}. El paquete de código suplementario incluido con este protocolo está destinado a facilitar la reproducción y adaptación del método por otros grupos de investigación.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Los autores no tienen nada que revelar.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudio fue financiado por el Programa Nacional de Investigación y Desarrollo de Claves de China (Números de Programa 2022YFC3500200 y 2022YFC3500204).

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Adam Optimizer	—	—	Incluidos en PyTorch
Albumentaciones	Equipo de Albumentaciones	v1.0+	Biblioteca de ampliación de datos
Kit de herramientas CUDA	NVIDIA	v11.3+	Aceleración GPU
Conjunto de datos Kvasir-SEG	SimulaMet	—	https://datasets.simula.no/kvasir-seg/
Matplotlib	Comunidad Matplotlib	v3.4+	Visualización de curvas de entrenamiento
NumPy	Comunidad NumPy	v1.21+	Cálculo numérico
NVIDIA Tesla P100	NVIDIA	P100-PCIE-16GB	GPU para entrenamiento e inferencia
OpenCV	Comunidad OpenCV	v4.5+	Preprocesamiento de imagen
Python	Fundación de Software Python	v3.8+	Lenguaje de programación
PyTorch	Plataformas Meta	v1.12+	Marco de aprendizaje profundo
Pesas preentrenadas ResNet-50	Zoológico Modelo PyTorch	—	ImageNet-1K preentrenado
Ubuntu	Canónico	18.04+	Sistema operativo

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Red de segmentación de pólipos basada en convolución en molinete y doble atención para el diagnóstico de lesiones precancerosas colorrectales

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles