Este protocolo implementa una red de aprendizaje profundo en forma de U que integra convolución de molinete de viento, doble atención y fusión multiescala para segmentar pólipos colorrectales.
Method Article
Este protocolo implementa una red de aprendizaje profundo en forma de U que integra convolución de molinete de viento, doble atención y fusión multiescala para segmentar pólipos colorrectales.
La segmentación precisa de los pólipos colorrectales es crucial para la prevención y el diagnóstico temprano del cáncer colorrectal. Sin embargo, debido a la alta heterogeneidad de los pólipos en términos de forma, tamaño y textura, así como a la complejidad del entorno intestinal (como pliegues, reflejos especulares y residuos fecales), los métodos existentes aún enfrentan desafíos significativos en la localización de los límites y la detección de pólipos pequeños. Para abordar estos problemas, este artículo propone una Red de Segmentación de Pólipos basada en la Convolución en Molinete y la Doble Atención (PWD-Net). La red propuesta adopta una arquitectura codificador-decodificador en forma de U, donde se emplea un ResNet preentrenado como codificador para extraer características locales multinivel. Específicamente, se introduce un Módulo de Convolución Pinwheel (PCM) en la capa de cuello de botella para capturar la estructura geométrica global y la información contextual multidireccional de los pólipos mediante núcleos de convolución rotados en múltiples ángulos. Un Mecanismo de Doble Atención (DAM) que integra la atención del canal y la atención espacial está diseñado para suprimir de forma adaptativa el ruido de fondo y mejorar las características de la región de pólipos. Además, se emplea una estrategia de Fusión de Características Multiescala (MSF) para combinar información semántica profunda con detalles superficiales en los límites, asegurando tanto la completitud como la precisión de los resultados de segmentación. Los experimentos realizados con los conjuntos de datos Kvasir-SEG y CVC-ClinicDB demuestran que PWD-Net alcanza coeficientes medios de Dice de 0,865 y 0,944, y puntuaciones IoU de 0,765 y 0,892, respectivamente, superando significativamente a los métodos de última generación existentes. Los estudios de ablación verifican la efectividad de cada módulo, y las evaluaciones entre conjuntos de datos confirman la fuerte capacidad de generalización del modelo. Este estudio ofrece una solución de alta precisión y robusta para la segmentación clínica de pólipos, ofreciendo un valor significativo para el diagnóstico precoz de lesiones precancerosas colorrectales y apoyando la intervención asistida por ordenador.
El cáncer colorrectal es uno de los tumores malignos más comunes en todo el mundo, con tasas de incidencia y mortalidad consistentemente altas. Los estudios han demostrado que la mayoría de los cánceres colorrectales se desarrollan a partir de pólipos adenomatosos, un proceso que normalmente dura entre 10 y 15 años, proporcionando una valiosa ventana temporal para la detección e intervención precoz. Un aumento del 1% en la tasa de detección de adenomas (ADR) puede reducir el riesgo de cáncer colorrectal en aproximadamente un 3%, disminuyendo significativamente la mortalidaddel paciente 1. La colonoscopia, considerada el estándar de oro para el cribado del cáncer colorrectal, permite la extirpación directa de pólipos durante el examen, reduciendo así eficazmente la incidencia y mortalidad por cáncer.
Sin embargo, la colonoscopia convencional depende en gran medida de la experiencia y el nivel de habilidad de los endoscopistas. Factores como el juicio subjetivo, la fatiga visual y la distracción pueden provocar una tasa de fallo del 20%–30%, lo que afecta directamente a la efectividad delcribado 2. Por ello, desarrollar sistemas de detección asistida por ordenador (CAD) para la segmentación automática de pólipos colorrectales tiene una importancia considerable para mejorar la ADR y reducir diagnósticos perdidos. Encuestas clínicas recientes han puesto de manifiesto aún más el interés en integrar la inteligencia artificial en los flujos de trabajo de evaluación endoscópica de lesiones, reforzando la necesidad de métodos de segmentación robustosy reproducibles.
En los últimos años, el aprendizaje profundo ha logrado avances notables en el análisis de imágenes médicas, especialmente en redes neuronales convolucionales (CNN), que demuestran una gran capacidad en la extracción de características y representación para tareas de segmentaciónde imágenes 4. Como modelo clásico de segmentación de imágenes médicas, U-Net emplea una arquitectura codificador-decodificador simétrica y conexiones de salto para lograr una segmentación precisa a nivel de píxel, convirtiéndose en un referente en estecampo 5. Basándose en U-Net, se han propuesto muchas arquitecturas mejoradas para abordar tareas complejas de segmentación de imágenes médicas. UNet++ reduce la brecha semántica entre los mapas de características del codificador y el decodificador introduciendo conexiones anidadas y de saltodenso 6. ResUNet++ integra bloques residuales, módulos de apretón y excitación, convoluciones dilatadas y mecanismos de atención, logrando un rendimiento sólido en segmentación depólipos 7. U2-Net adopta una estructura anidada en forma de U de dos niveles para capturar información de características a múltiplesescalas 8. Más recientemente, se ha propuesto una red de segmentación profunda de pólipos basada en codificador-decodificador dual, que aprovecha rutas de codificación y decodificación paralelas para mejorar aún más la precisión de lasegmentación 9.
Mientras tanto, la introducción de mecanismos de atención ofrece nuevas soluciones para la mejora de características y la supresión del ruido. Attention U-Net emplea puertas de atención para enfocarse en regiones objetivo mientras suprime información de fondo irrelevante10. La Red de Doble Atención (DANet) pondera adaptativamente características tanto de las dimensiones de canal comoespaciales 11, mejorando la percepción de características críticas. Las Redes de Triple Atención (TANet) mejoran aún más el rendimiento de la segmentación mediante la selección adaptativa de características multiescala12.
Con el éxito de las arquitecturas Transformer en procesamiento de lenguaje natural y visiónpor ordenador 13, los investigadores han comenzado a explorar su aplicación en la segmentación de imágenes médicas. TransUNet fue el primero en emplear un Transformador como codificador para modelar dependencias de largo alcance de formaefectiva 14. Swin-UNet adopta una arquitectura puramente Transformer y logra una agregación global eficiente de información mediante un mecanismo de ventanadesplazada 15. UTNet propone una arquitectura híbrida que combina la capacidad de extracción local de características de las CNN con la capacidad de modelado global de Transformers16.
En el campo de la segmentación de pólipos, Polyp-PVT utiliza un Transformer de visión piramidal para capturar información semántica globala escala múltiple 17, mientras que UNet anidado a escala múltiple mejora la comprensión contextual integrando Transformers18. Estudios recientes también han explorado estrategias de aprendizaje por correlación negativa para la segmentación de pólipos entredominios 19, la mejora de segmentación aumentada con Gompertz20 y arquitecturas basadas en la atención que incorporan guía delímites 21. Aunque estos enfoques mejoran en cierta medida el rendimiento de la segmentación, la segmentación de pólipos aún enfrenta varios desafíos. En primer lugar, los pólipos presentan una gran heterogeneidad en morfología, tamaño y textura, que van desde micropólipos de menos de 5 mm hasta pólipos grandes que superan los 30 mm, con formas que varían desde circulares y elípticas hasta formas muy irregulares. En segundo lugar, el entorno intestinal es complejo y variable, donde los pliegues mucosos, los reflejos especulares, los residuos fecales y los restos de comida introducen una interferencia de fondo severa. En tercer lugar, muchos pólipos tienen límites difusos, pueden estar parcialmente ocluidos por pliegues o sumergidos en fluidos intestinales, lo que hace que la localización precisa de los límites sea extremadamentedifícil 22.
Los métodos existentes aún presentan limitaciones claras para abordar estos desafíos. Las CNN tradicionales son eficaces para extraer texturas locales y características de bordes; sin embargo, los núcleos de convolución cuadrada fija no son adecuados para capturar diversas formas geométricas23, especialmente para pólipos muy irregulares, y no pueden modelar eficazmente características geométricas multidireccionales. Los métodos basados en transformadores pueden modelar dependencias globales, pero son menos efectivos para captar detalles locales finos e información de fronteras. Además, su alta complejidad computacional los hace menos adecuados para aplicaciones clínicas en tiemporeal 24. Enfoques recientes de segmentación de pólipos como PraNet, que utiliza módulos de atención inversa para refinar regiones clave25, redes de atención en cascada guiadas por límites que mejoran la extracción de característicasde límite 26, y CAFE-Net, que fusiona características codificadoras y decodificadoras mediante mecanismosde atención cruzada 27, aún encuentran una representación insuficiente de características y una localización inexacta de los límites al tratar con pólipospequeños 28, límites difuminados y fondos complejos. Además, la mayoría de los métodos descuidan la morfología geométrica y no aprovechan plenamente la información contextual multidireccional, lo que resulta en una segmentación subóptima de pólipos de forma irregular.
En resumen, los métodos actuales basados en CNN carecen de la capacidad de capturar características geométricas multidireccionales debido a su dependencia de núcleos de convolución cuadrada fija. Los enfoques basados en transformadores ofrecen modelado global pero sacrifican la precisión local en el límite e imponen altos costes computacionales. Mientras tanto, las estrategias de fusión actuales con atención mejorada y multiescala no se han optimizado conjuntamente dentro de un marco unificado específicamente adaptado para la segmentaciónde pólipos 29. Estas lagunas motivan el desarrollo de un método que aborda simultáneamente el modelado geométrico de características, la supresión adaptativa del ruido y la integración de características a escala cruzada.
Para abordar estos problemas, este protocolo presenta una Red de Segmentación de Pólipos basada en Convolución de Molinete y Doble Atención (PWD-Net). La red propuesta integra modelado geométrico de características, mejora de la atención multidimensional y fusión de características a múltiples escalas, permitiendo la segmentación precisa de pólipos complejos. Las principales contribuciones de este trabajo se resumen de la siguiente manera: el módulo de convolución en molinete (PCM), inspirado en la estructura de un molinillo, propone un novedoso diseño de núcleo de convolución rotado que captura características geométricas multidireccionales de los pólipos mediante operaciones de convolución en múltiples ángulos (0°, 45°, 90°, 135°, 180°, 225°, 270° y 315°). Este módulo sustituye la capa convencional de convolución en la etapa de cuello de botella, permitiendo una percepción efectiva de diversas orientaciones de bordes y mejorando significativamente la representación de pólipos de formas irregulares. El mecanismo de doble atención (DAM) aborda el ruido de fondo como pliegues, reflexiones y residuos fecales en las imágenes de colonoscopia. Se diseña un módulo de doble atención que integra la atención canalizada y la atención espacial. Integrado en conexiones de salto, este módulo suprime de forma adaptativa la interferencia de fondo y mejora las respuestas de características en regiones de pólipos al identificar conjuntamente "qué" es importante (dimensión del canal) y "dónde" se encuentra el objetivo (dimensión espacial), asegurando que solo las características refinadas estén involucradas en la fusión posterior. La estrategia de fusión de características multiescala (MSF) preserva tanto información semántica profunda como detalles superficiales de los límites mediante un mecanismo jerárquico introducido en el decodificador. Al integrar progresivamente características de codificadores mejorados con DAM con características de decodificador upamuestreado, esta estrategia compensa eficazmente la pérdida de detalle espacial causada por el muestreo descendente, permitiendo la detección precisa de pólipos pequeños y una delimitación precisa de los límites.
Este estudio utiliza únicamente conjuntos de datos de imágenes de colonoscopia anonimizadas y disponibles públicamente (Kvasir-SEG). No se recogieron nuevos datos de sujetos humanos. No se requería la aprobación ética institucional ni el consentimiento informado del paciente, como confirman las políticas de revisión institucional para análisis retrospectivos de conjuntos de datos públicos desidentificados.
1. Preparación de datos
2. Arquitectura general
NOTA: Consulte la Figura 1 para la columna vertebral codificador-decodificador a nivel macro de PWD-Net, y la Figura 2 para la integración e interacción de módulos centrales dentro del flujo de características. La arquitectura general sigue un diseño codificador-decodificador en forma de U para manejar variaciones de escala de pólipos e interferencias de fondo en imágenes de colonoscopia.
3. Módulo de convolución del molinete (Figura 3)

4. Mecanismo de doble atención (Figura 4)
NOTA: El Mecanismo de Doble Atención (DAM) está integrado en cada conexión de salto para suprimir el ruido de fondo y realzar las características de la región de pólipos tanto en el canal como en las dimensiones espaciales.


5. Fusión de características a escala múltiple
6. Función de pérdida y configuración de entrenamiento



7. Pseudocódigo
Algoritmo 1: Segmentación de pólipos PWD-Net
1: Entrada: Imagen de colonoscopia I ∈R H×W×3
2: Salida: Máscara de segmentación M ∈ {0,1}(H×W)
3:
4: función Módulo de convolución PCM(X) ▷ Pinwheel
5: Definamos núcleo base W (3 x 3), ángulos Θ = {0°, 45°, ..., 315°}
6: para cada θ ∈ Θ do
7: Wθ ← BilinearRotate(W, θ) ▷ Rotate kernel
8: Yθ ← Conv2d(X,W θ) ▷ Características específicas de la dirección
9: fin para
10: Yout ← ReLU(BN(Conv1 x 1(Concat({Yθ})))) ▷ Aggregate
11: devuelve Yfuera
12: función final
13:
14: función DAM(F) ▷ Mecanismo de doble atención
15: Ac ← Sigmoide(MLP(AvgPool(F))) ▷ Atención de canal (r=16)
16: As ← Sigmoide(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Atención espacial
17: F' ← F ⊗ (α · Ac + β · As) ▷ Fusionar con α aprendible, β (init=0,5)
18: Regreso F'
19: función final
20:
21: función PWD-Net(I)
22: Codificador: e1,e 2,e 3,e 4,e 5 ← ResNet50_Stages(I) ▷ codificador preentrenado de 5 etapas
23: Cuello de botella: b ← PCM(e5) ▷ Aplicar PCM en cuello de botella
24: Saltar conexiones: si ← DAM(e i) para i = 1, 2, 3, 4 ▷ Características del codificador de filtro
25: Decodificador:
26: d 4 ← DoubleConv(Concat(Up(b),s 4))
27: d 3 ← DoubleConv(Concat(Up(d 4), s3))
28: d 2 ← DoubleConv(Concat(Up(d 3), s2))
29: d 1 ← DoubleConv(Concat(Up(d2), s1))
30: M ← Sigmoid (Conv1 x 1(d1))
31: regreso M
32: función final
33:
34: Entrenamiento:
35: para cada época haz
36: M̂ ← PWD-Net(I)
37: L ← 0,5 · A.C. (M̂,M gt) + 0,5 · Pérdida de dados (M̂,M gt) ▷ λ = 0,5
38: Actualizar parámetros mediante retropropagación (Adamoptimizar r)
39: fin para
Montaje experimental
Conjunto de datos
El conjunto de datos Kvasir SEG se utilizó para evaluar el comportamiento de segmentación de PWD Net en imágenes de colonoscopia con apariencias heterogéneas de pólipos. El conjunto de datos contiene imágenes de pólipos anotadas de 1.000 píxeles e incluye variaciones en tamaño, forma, textura, iluminación y complejidad de fondo de pólipo, lo que lo hace adecuado para evaluar la detección de objetivos pequeños, la localización de límites y la robustez frente a interferencias visuales. El conjunto de datos se dividió en subconjuntos de entrenamiento, validación y prueba, y el conjunto final de prueba se utilizó únicamente para la evaluación del rendimiento. La distribución de las imágenes se resume en la Tabla 1.
Detalles de implementación
Los ajustes de implementación requeridos para la reproducibilidad se resumen en la Tabla 2, y los detalles completos del procedimiento se proporcionan en los pasos de Preparación de Datos y la Sección 5.2 del Protocolo. Para interpretar los resultados, todos los experimentos reportados utilizaron la misma resolución de entrada, entorno hardware y condiciones de evaluación listadas en la Tabla de Materiales. Los valores reportados se basan en el punto de control de dados de validación seleccionado de una sola secuencia usando semilla = 42, por lo que los resultados deben interpretarse como rendimiento bajo una división experimental fija en lugar de como resultados promedios de validación cruzada.
Métricas de evaluación
El rendimiento de segmentación se evaluó utilizando el coeficiente de Dice, la intersección sobre la unión, la precisión a nivel de píxel y la velocidad de inferencia. El coeficiente de dados y la intersección sobre la unión se utilizaron como métricas principales basadas en solapamientos porque reflejan directamente la concordancia entre la máscara predicha y la región de pólipos anotada por expertos. La precisión a nivel de píxel se reportó como medida complementaria porque las imágenes de colonoscopia suelen contener grandes regiones de fondo. Se incluyó la velocidad de inferencia, reportada en fotogramas por segundo, para evaluar si el modelo mantiene la eficiencia computacional práctica mientras mejora la calidad de la segmentación.
Comparación con métodos existentes
Para demostrar el comportamiento y la efectividad de PWD-Net, se realiza una comparación con cinco métodos representativos de segmentación de pólipos: CBSA (Red de Atención Espacial Potenciada por Canal)34, FSSA (Red de Atención Espacial Compartida Características), MSF (Red de Fusión Multi-Escala), Pinwheel-Conv (línea base de convolución en molinete sin módulos de atención ni fusión) y PolaLinear (Red de atención lineal polarizada). Todos los métodos de comparación se reimplementan usando sus códigos fuente oficialmente publicados y se entrenan en el mismo conjunto de entrenamiento Kvasir-SEG (800 imágenes) bajo idénticos preprocesamientos, resolución de entrada (352 x 352) y ajustes de evaluación para garantizar una comparación justa. La Tabla 3 presenta los resultados cuantitativos en el conjunto de pruebas.
Como se muestra en la Tabla 3, PWD-Net alcanza un coeficiente de dados de 0,865 y un IoU de 0,765, lo que representa mejoras del 1,8% en Dice y del 4,8% en IoU en comparación con el siguiente mejor método (CBSA). Cabe destacar que PWD-Net logra esto con parámetros de 9,1M, frente a 18,4M para CBSA, lo que indica una eficiencia favorable. Aunque PolaLinear y Pinwheel-Conv ofrecen velocidades de inferencia más rápidas (79 y 72 FPS, respectivamente), su precisión de segmentación es notablemente menor, lo que sugiere que PWD-Net proporciona un equilibrio razonable entre precisión y coste computacional para el conjunto de datos evaluado. Para ilustrar el comportamiento cualitativo de segmentación, se seleccionan cinco muestras representativas de prueba que cubren pólipos pequeños, pólipos grandes, fondos complejos y límites difuminados para su comparación visual. La Figura 5 presenta los resultados de segmentación de cuatro métodos de comparador seleccionados (CBSA, FSSA, MSF y PWD-Net) junto con la verdad de base. Cada columna de predicción está etiquetada con el nombre correspondiente del método. Pinwheel-Conv y PolaLinear se omiten de esta cifra por mayor claridad visual, ya que su rendimiento cuantitativo es sustancialmente menor; esta figura representa, por tanto, un subconjunto seleccionado de los métodos comparados en la Tabla 3.
Como se muestra en la Figura 5, en escenarios de pólipos pequeños (primera y quinta fila), FSSA y MSF presentan detecciones fallidas, mientras que PWD-Net captura los objetivos de forma más completa. En escenarios de pólipos grandes (segunda y tercera fila), CBSA y FSSA producen irregularidades notables en los límites, mientras que PWD-Net genera límites más suaves. En el escenario de frontera difuminada (cuarta fila), PWD-Net demuestra una supresión efectiva del ruido de fondo mediante el mecanismo de doble atención.
Estudio de ablación
Para analizar la contribución de cada componente central en PWD-Net, se realiza un estudio sistemático de ablación. Utilizando ResNet-50 como codificador principal para formar el modelo base, se incorporan de forma incremental el Módulo de Convolución Pinwheel (Pinwheel), el Mecanismo de Doble Atención (Dual-Attn) y el módulo Multi-Scale Feature Fusion (MSF). La Tabla 4 resume los resultados cuantitativos.
Los principales hallazgos de la Tabla 4 pueden resumirse de la siguiente manera. Primero, añadir cualquier módulo individual mejora el rendimiento del modelo base. El Mecanismo de Doble Atención aporta las mejoras más notables (Dados: +2,0%, IoU: +2,7%), apoyando la eficacia de la supresión adaptativa del ruido. El Módulo de Convolución Pinwheel aporta una mejora del 1,6% en Dice, lo que indica el beneficio de la extracción de características multidireccionales para formas irregulares de pólipos. Segundo, combinar la Convolución del Pinwheel y el Mecanismo de Doble Atención aumenta aún más el rendimiento a Dados = 0,858 y IoU = 0,748, sugiriendo complementariedad entre ambos módulos. Finalmente, el PWD-Net completo (integrando los tres módulos) logra el mejor rendimiento observado (Dice = 0,865, IoU = 0,765), con mejoras del 3,3% y 6,0%, respectivamente, en comparación con la línea base, demostrando la contribución de cada componente propuesto en este conjunto de datos.
Análisis del proceso de formación
Para ilustrar la dinámica de entrenamiento y las características de convergencia de PWD-Net, se registran y visualizan métricas clave de rendimiento a lo largo de 50 épocas de entrenamiento. La Figura 6 muestra las variaciones de la función de pérdida, el coeficiente de dados, la IoU y la precisión durante el entrenamiento.
Como se muestra en la Figura 6(a), tanto la pérdida de entrenamiento como la pérdida de validación disminuyen rápidamente en las primeras 10 épocas y luego se estabilizan gradualmente. La pérdida de validación sigue siendo ligeramente superior a la pérdida de entrenamiento en todo el tiempo, pero ambas curvas siguen una tendencia consistente con una pequeña brecha, lo que indica que el modelo no sufre un sobreajuste severo. La Figura 6(b) muestra que el coeficiente de Dice aumenta bruscamente en la etapa inicial de entrenamiento, converge después aproximadamente de la época 30 y se estabiliza por encima de 0,86. La curva IoU en la Figura 6(c) muestra una tendencia de crecimiento similar, alcanzando alrededor de 0,765 en la fase final de entrenamiento. La Figura 6(d) indica que la precisión converge por encima del 94%. Las tendencias estables de validación en las etapas intermedia y avanzada de entrenamiento sugieren que la estrategia adoptada de aumento de datos y el calendario de recocido coseno contribuyen a mitigar el sobreajuste en este conjunto de datos.
Rendimiento en tamaños de pólipos
Para evaluar aún más la aplicabilidad de PWD-Net en diferentes escenarios clínicos, el conjunto de pruebas (100 imágenes) se divide en tres categorías según la proporción del área de pólipos respecto al área total de la imagen: pólipos pequeños (< 5%), pólipos medianos (5%–30%) y pólipos grandes (> 30%). Esta clasificación refleja la influencia de la escala de pólipos en la dificultad de segmentación. La Tabla 5 presenta el rendimiento cuantitativo en cada categoría. Como se muestra en la Tabla 5, PWD-Net logra el mejor rendimiento en la categoría de pólipos medios (Dados = 0,882, IoU = 0,790), lo cual es consistente con la mayor representación de esta categoría (54 de 100 imágenes de prueba). El rendimiento en pólipos grandes se mantiene en un nivel comparable (Dados = 0,861, IoU = 0,760). El rendimiento en pólipos pequeños es relativamente inferior (dados = 0,812, IoU = 0,685), principalmente porque los objetivos pequeños ocupan una pequeña proporción de la imagen y son más susceptibles al ruido de fondo con información de límite más escasa.
Estos resultados sugieren que la capacidad de captura de características multidireccional del Módulo de Convolución Pinwheel y la capacidad de localización espacial del Mecanismo de Doble Atención contribuyen a mantener una calidad razonable de segmentación a través de diferentes escalas de pólipos en el conjunto de pruebas evaluado.

Figura 1: Marco del modelo PWD-Net. Marco estructural general de la propuesta Polyp Segmentation Network basada en Convolución en Molinete y Doble Atención (PWD-Net), ilustrando el codificador (ResNet-50), el cuello de botella (PCM), conexiones de salto mejoradas con DAM, el decodificador MSF y la generación de salida para la segmentación colorrectal de pólipos. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 2: Diagrama de flujo general de arquitectura de PWD-Net. Diagrama de flujo detallado de la arquitectura completa de PWD-Net, mostrando el codificador ResNet-50 de cinco etapas, el cuello de botella PCM, las conexiones de salto DAM, el decodificador de fusión de características a escala múltiple y la generación final de predicción. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 3: Diagrama esquemático del módulo de convolución del molinito. Esquema estructural y operacional del Módulo de Convolución Pinwheel, que demuestra núcleos de convolución rotados en múltiples ángulos, rotación basada en interpolación bilineal, concatenación de canales y agregación de convoluciones 1 x 1. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 4: Diagrama estructural del mecanismo de doble atención. Diagrama arquitectónico del DAM, mostrando la rama paralela de atención del canal (Global Average Pooling → MLP con razón de reducción r = 16 → Sigmoide) y la rama de atención espacial (agrupación canal por canal → convolución 7 x 7 → sigmoide), seguida de fusión ponderada con coeficientes aprendibles α y β. Por favor, haga clic aquí para ver una versión ampliada de esta figura.

Figura 5: Comparación cualitativa de los resultados de la segmentación. Cada fila representa una muestra de prueba. Columnas de izquierda a derecha: Imagen de entrada, Ground Truth, CBSA, FSSA, MSF y PWD-Net (Nuestro). Pinwheel-Conv y PolaLinear se omiten de esta figura por mayor claridad visual; véase la Tabla 3 para la comparación cuantitativa completa. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 6: Curvas de entrenamiento de PWD-Net a lo largo de 50 épocas. (a) Pérdida de entrenamiento y validación. (b) Coeficiente de dados. (c) Intersección sobre Union (IoU). (d) Precisión a nivel de píxel. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
| Subconjunto de Entrenamiento | Número de muestras | Proporción |
| Tren | 800 | 80% |
| Conjunto de validación | 100 | 10% |
| Conjunto de pruebas | 100 | 10% |
| Total Set | 1000 | 100% |
Tabla 1: Estadísticas de conjuntos de datos. Distribución dividida del conjunto de datos para el conjunto de datos Kvasir-SEG (1.000 imágenes en total), mostrando el número de imágenes y la proporción asignadas a los subconjuntos de entrenamiento, validación y prueba (semilla aleatoria = 42).
| Categoría | Ítem de parámetro | Configuración de parámetros |
| Marco de Aprendizaje Profundo | Marco | PyTorch |
| Entorno de hardware | GPU | NVIDIA Tesla P100 |
| Método de aceleración | Aceleración de GPU | CUDA |
| Configuración de entrada | Tamaño de la imagen de entrada | 352 × 352 |
| Formato de imagen | Formato de imagen | Imagen RGB |
| Optimizador | Optimizador | Adam |
| Tasa inicial de aprendizaje | LR inicial | 1 × 10⁻4 |
| Tamaño del lote | Tamaño del lote | 16 |
| Épocas de entrenamiento | Épocas | 50 |
| Función de pérdida | Función de pérdida | Pérdida de dados + AC |
Tabla 2: Ajustes de parámetros experimentales. Configuración experimental de parámetros para el entrenamiento y evaluación de PWD-Net. Consulte los pasos de Preparación de Datos y la Sección 5.2 del Protocolo para el procedimiento completo de implementación paso a paso.
| Método | Dados ↑ | IoU ↑ | Precisión ↑ | Parámetros (M) ↓ | FPS ↑ |
| CBSA | 0.8466 | 0.717 | 0.9325 | 18.4 | 36 |
| FSSA | 0.7109 | 0.551 | 0.9012 | 9.8 | 61 |
| MSF | 0.7337 | 0.585 | 0.9086 | 11.5 | 54 |
| Pinwheel-Conv | 0.8007 | 0.6742 | 0.9401 | 7.9 | 72 |
| PolaLinear | 0.7213 | 0.5707 | 0.9113 | 6.6 | 79 |
| PWD-Net (Nuestro) | 0.865 | 0.7651 | 0.9478 | 9.1 | 63 |
Tabla 3: Resultados de comparación cuantitativa. Comparación cuantitativa de PWD-Net con cinco métodos existentes de segmentación de pólipos en el conjunto de pruebas Kvasir-SEG (100 imágenes). Todos los métodos se evalúan bajo divisiones de datos, preprocesamiento y resolución de entrada idénticos (352 x 352). ↑ indica que más alto es mejor; ↓ indica que más bajo es mejor. Los métodos marcados con * indican resultados citados de la publicación original en lugar de reimplementados.
| Configuración | Pineta | Dual-Attn | MSF | Dados ↑ | IoU ↑ |
| Línea base | × | × | × | 0.832 | 0.705 |
| + Pinwheel | √ | × | × | 0.848 | 0.725 |
| + Dual-Attn | × | √ | × | 0.852 | 0.732 |
| + MSF | × | × | √ | 0.844 | 0.72 |
| + Pinwheel + Doble Atención | √ | √ | × | 0.858 | 0.748 |
| Completo (PWD-Net) | √ | √ | √ | 0.865 | 0.765 |
Tabla 4: Resultados del estudio de ablación. Resultados del estudio de ablación en el conjunto de pruebas Kvasir-SEG, mostrando la contribución incremental del Módulo de Convolución Pinwheel (Pinwheel), el Mecanismo de Doble Atención (Dual-Attn) y la Multi-Scale Feature Fusion (MSF) al codificador base ResNet-50.
| Tipo de pólipo | Número | Dados ↑ | IoU ↑ |
| Pólipos pequeños (< 5%) | 21 | 0.812 | 0.685 |
| Pólipos medios (5%–30%) | 54 | 0.882 | 0.79 |
| Pólipos grandes (> 30%) | 25 | 0.861 | 0.76 |
Tabla 5: Rendimiento de PWD-Net en diferentes tipos de pólipos. Rendimiento de PWD-Net en diferentes categorías de tamaño de pólipo dentro del conjunto de pruebas Kvasir-SEG (100 imágenes). El tamaño del pólipo se define por la proporción del área del pólipo respecto al área total de la imagen.
Archivo suplementario: Archivo comprimido que contiene la implementación del marco PWD-Net. El archivo incluye model.py definir la arquitectura de red con el Módulo de Convolución Pinwheel (PCM) y el Mecanismo de Doble Atención (DAM), train.py implementar la cadena de carga de datos, la función de pérdida y el procedimiento de entrenamiento, test.py para la inferencia y evaluación de modelos en conjuntos de datos de prueba, y requirements.txt listando todas las librerías Python requeridas y sus versiones correspondientes. Por favor, haga clic aquí para descargar este archivo.
Varias opciones de diseño en el protocolo PWD-Net son fundamentales para lograr resultados de segmentación fiables y merecen una atención cuidadosa durante la implementación. Primero, la selección e inicialización de la columna vertebral del codificador influye directamente en el comportamiento de convergencia y el rendimiento final. El protocolo emplea un codificador ResNet-50 preentrenado en ImageNet, que proporciona una inicialización robusta de características de bajo y nivel medio. Esto es especialmente importante para tareas de segmentación de imágenes médicas donde los datos de entrenamiento disponibles son limitados (800 imágenes en el presente estudio). Afinar finamente todas las capas del codificador, en lugar de congelarlas, permite a la red adaptar las características preentrenadas a las características específicas de las imágenes de colonoscopia, como texturas mucosas y reflexiones especulares. En segundo lugar, la colocación de cada módulo central dentro de la arquitectura es intencionada. El Módulo de Convolución Pinwheel (PCM) se sitúa en el cuello de botella, donde la resolución espacial es más baja pero la información semántica es más rica, lo que permite capturar de forma eficiente patrones geométricos globales sin un coste computacional excesivo. El Mecanismo de Doble Atención (DAM) está integrado en las conexiones de salto en lugar de en el decodificador, asegurando que el ruido de fondo se suprima antes de que las características se transmitan al decodificador, evitando que las características contaminadas se propaguen a través de las etapas de fusión. El estudio de ablación (Tabla 4) respalda este diseño: el DAM aporta la mayor ganancia individual de rendimiento (Dados: +2,0%), lo que confirma la importancia de la supresión temprana del ruido en la cadena de características. Tercero, la función de pérdida híbrida (0,5 · A.C. + 0,5 · Dice) equilibra la precisión de la clasificación a nivel de píxel con la optimización de solapamiento a nivel regional. Esta combinación es especialmente relevante para la segmentación de pólipos, donde el desequilibrio de clases entre primer plano y fondo es común. Se adopta la ponderación igual (λ = 0,5) como predeterminada; puede ser necesario ajustar esta proporción para conjuntos de datos con diferentes distribuciones de clases (véase Solución de problemas más abajo).
Modificaciones y solución de problemas
Se proporcionan las siguientes modificaciones y directrices de solución de problemas para adaptar el protocolo a diferentes entornos experimentales. Al aplicar el protocolo a conjuntos de datos con diferentes resoluciones de imagen o distribuciones de tamaño de pólipo, la resolución de entrada (352 x 352) puede necesitar ajuste. Tamaños de entrada más grandes pueden mejorar la detección de pólipos pequeños a costa de un mayor consumo de memoria y una menor velocidad de inferencia. Si la pérdida de entrenamiento no converge en 50 épocas, considera reducir la tasa inicial de aprendizaje (por ejemplo, a 5 x 10⁻5) o aumentar la longitud del ciclo de recocido coseno. Si el modelo muestra altas tasas de falsos positivos en regiones con reflexiones especulares severas o pliegues mucosos, aumentar el peso del componente de pérdida de dados (por ejemplo, λ = 0,4 para BCE, 0,6 para dados) puede mejorar la precisión de los límites a costa de la precisión a nivel de píxel. Por el contrario, si el modelo subsegmenta pólipos pequeños, aumentar el peso BCE puede ayudar. El número de ángulos de rotación en el PCM (actualmente ocho, de 0° a 315° en incrementos de 45°) representa un equilibrio entre la cobertura direccional y el coste computacional. Reducir a cuatro ángulos (0°, 90°, 180°, 270°) disminuye el cálculo pero puede disminuir la sensibilidad a los límites oblicuos de pólipos. La razón de reducción r = 16 en la rama de atención de canal del DAM sigue la convención establecida por redes previas de compresión yexcitación 32; Proporciones más pequeñas (por ejemplo, r = 8) aumentan la capacidad del modelo pero pueden llevar a un sobreajuste en conjuntos de datos pequeños. Para conjuntos de datos significativamente mayores que Kvasir-SEG, considera aumentar el tamaño del lote y las épocas de entrenamiento en consecuencia, y monitorizar métricas de validación para determinar el punto de parada adecuado.
Importancia relativa a métodos alternativos
La arquitectura PWD-Net aborda limitaciones específicas de los enfoques existentes mediante tres módulos complementarios. En comparación con métodos que dependen de núcleos convolucionados cuadrados estándar, el PCM proporciona sensibilidad direccional mediante núcleos rotados en múltiples ángulos, lo que permite una mejor adaptación a la morfología irregular y diversa de los pólipos colorrectales. En comparación con los mecanismos de atención unidimensionales (por ejemplo, atención solo por canal en redes de apretón yexcitación 33), el DAM modela conjuntamente la importancia del canal y espacial, ofreciendo una supresión del ruido más completa en el entorno complejo de colonoscopia. En comparación con arquitecturas basadas en transformadores como TransUNet34 yPolyp-PVT 35, que ofrecen un sólido modelado global pero a un coste computacional mayor, PWD-Net logra un rendimiento competitivo con un tamaño de modelo relativamente compacto (9,1 millones de parámetros) y una velocidad de inferencia práctica (63 FPS), como se documenta en la Tabla 3.
Cabe señalar que las comparaciones presentadas en este estudio (Tabla 3) se realizan bajo condiciones controladas con divisións de datos, preprocesamiento y protocolos de evaluación idénticos. Las diferencias de rendimiento observadas son específicas del conjunto de pruebas Kvasir-SEG (100 imágenes) utilizado en este estudio y pueden no generalizarse directamente a otros conjuntos de datos o entornos clínicos. Una comparación más amplia que incorpore líneas base establecidas adicionales (por ejemplo, PraNet36, ResUNet++37) bajo benchmarks estandarizados de múltiples conjuntos de datos reforzaría aún más la evidencia y está prevista para trabajos futuros. Trabajos recientes sobre arquitecturas codificador-decodificador dual para segmentación depólipos 38 han demostrado el potencial de los caminos de codificación y decodificación paralelos. La arquitectura PWD-Net se diferencia por centrarse en el modelado geométrico rotacional y el filtrado de doble atención dentro de una única tubería codificador-decodificador, representando una filosofía de diseño complementaria.
Deben reconocerse varias limitaciones importantes de este estudio. En primer lugar, en cuanto al alcance experimental, el estudio actual informa de los resultados exclusivamente sobre el conjunto de datos Kvasir-SEG con una única división aleatoria de 800 imágenes de entrenamiento, 100 de validación y 100 de prueba. El tamaño del conjunto de pruebas (100 imágenes) es relativamente pequeño, y solo se reporta una única ejecución de entrenamiento sin experimentos repetidos ni validación cruzada. En consecuencia, las métricas de rendimiento reportadas pueden estar sujetas a variaciones relacionadas con la división específica de datos. Los trabajos futuros deberían incorporar la validación cruzada k-fold o múltiples desvíos aleatorios con desviaciones estándar reportadas para proporcionar estimaciones de rendimiento más robustas. En segundo lugar, la PCM introduce una sobrecarga computacional adicional mediante rotación y agregación del núcleo multiángulo. Aunque el modelo general sigue siendo compacto (9,1 millones de parámetros), el despliegue en dispositivos con recursos limitados en entornos clínicos puede requerir una optimización adicional mediante técnicas como la destilación de conocimiento o la poda de modelos. En tercer lugar, el modelo se entrena y evalúa exclusivamente con imágenes estáticas, mientras que la colonoscopia clínica implica flujos de vídeo en tiempo real en los que la apariencia, el tamaño y el punto de vista de los pólipos cambian dinámicamente a lo largo de fotogramas consecutivos. Aunque la velocidad de inferencia de 63 FPS es compatible con tasas de fotogramas en tiempo real, esta métrica por sí sola no constituye validación clínica. Sería necesaria la validación prospectiva de datos de vídeo endoscópico, estudios de lectores y análisis posteriores de endpoints clínicos antes de poder hacer cualquier afirmación de preparación clínica 39,40,41. El trabajo actual debe entenderse como una contribución metodológica más que como un sistema clínicamente validado.
En cuarto lugar, la vía de traducción clínica para la segmentación asistida por IA de pólipos va mucho más allá de la precisión de segmentación. Revisiones recientes han destacado que las herramientas avanzadas de imagen y análisis deben integrarse dentro de flujos de trabajo endoluminales más amplios, incluyendo la clasificación de lesiones, la estadificación y la planificación del tratamiento. El protocolo actual se centra exclusivamente en la segmentación binaria de pólipos y no aborda la clasificaciónpatológica 42 (por ejemplo, pólipos adenomatosos vs. hiperplásicos) ni la evaluación del riesgo de malignidad, que son esenciales para guiar decisiones clínicas. Quinto, los conjuntos de datos utilizados en este estudio se derivan principalmente de colonoscopias en adultos. No se representan datos sobre pólipos pediátricos, pólipos asociados a enfermedad inflamatoria intestinal y otros tipos patológicos especiales. La generalizabilidad del modelo a estas poblaciones sigue sin comprobarse. En sexto lugar, aunque se proporcionan experimentos de ablación y visualizaciones cualitativas para ilustrar la función de cada módulo, la interpretabilidad del modelo sigue siendo limitada. El proceso de toma de decisiones de los modelos de aprendizaje profundo no es completamente transparente, lo que puede afectar la confianza y adopción de los clínicos. Trabajos futuros podrían incorporar técnicas de visualización basadas en gradientes para proporcionar explicaciones más intuitivas de las prediccionesde modelos 43.
A pesar de las limitaciones mencionadas anteriormente, el protocolo PWD-Net proporciona un marco reproducible para la segmentación de pólipos que puede servir como base para un desarrollo futuro. Las posibles indicaciones incluyen: extender el modelo al análisis de colonoscopia basado en vídeo incorporando técnicas de modelado temporal; añadir una rama de clasificación para segmentación de extremo a extremo y tipificación patológica; ampliar la evaluación a conjuntos de datos multicéntricos más grandes y diversos; y explorar la integración dentro de plataformas robóticas endoluminales, donde el análisis de imágenes asistido por IA es cada vez más reconocido como una tecnología clavepara habilitar 44,45. El paquete de código suplementario incluido con este protocolo está destinado a facilitar la reproducción y adaptación del método por otros grupos de investigación.
Los autores no tienen nada que revelar.
Este estudio fue financiado por el Programa Nacional de Investigación y Desarrollo de Claves de China (Números de Programa 2022YFC3500200 y 2022YFC3500204).
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| Adam Optimizer | — | — | Incluidos en PyTorch |
| Albumentaciones | Equipo de Albumentaciones | v1.0+ | Biblioteca de ampliación de datos |
| Kit de herramientas CUDA | NVIDIA | v11.3+ | Aceleración GPU |
| Conjunto de datos Kvasir-SEG | SimulaMet | — | https://datasets.simula.no/kvasir-seg/ |
| Matplotlib | Comunidad Matplotlib | v3.4+ | Visualización de curvas de entrenamiento |
| NumPy | Comunidad NumPy | v1.21+ | Cálculo numérico |
| NVIDIA Tesla P100 | NVIDIA | P100-PCIE-16GB | GPU para entrenamiento e inferencia |
| OpenCV | Comunidad OpenCV | v4.5+ | Preprocesamiento de imagen |
| Python | Fundación de Software Python | v3.8+ | Lenguaje de programación |
| PyTorch | Plataformas Meta | v1.12+ | Marco de aprendizaje profundo |
| Pesas preentrenadas ResNet-50 | Zoológico Modelo PyTorch | — | ImageNet-1K preentrenado |
| Ubuntu | Canónico | 18.04+ | Sistema operativo |
Request permission to reuse the text or figures of this JoVE article
Request Permission