Rede de Segmentação de Pólipos Baseada em Convolução de Cataventos e Atenção Dupla para Diagnóstico de Lesão Pré-cancerosa Colorretal

Ning Du; Xinqi Liu; Li Ji; Chuijie Wang

doi:10.3791/71178

Method Article

Rede de Segmentação de Pólipos Baseada em Convolução de Cataventos e Atenção Dupla para Diagnóstico de Lesão Pré-cancerosa Colorretal

DOI:

10.3791/71178

⸱

June 26th, 2026

Ning Du*¹ , Xinqi Liu*¹ , Li Ji² , Chuijie Wang³

¹National Cancer Center/National Clinical Research Center for Cancer/Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, ²Xinglin College of Liaoning University of Traditional Chinese Medicine, ³Liaoning University of Traditional Chinese Medicine Affiliated Hospital

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Esse protocolo implementa uma rede de aprendizado profundo em formato de U que integra convolução de catavento, atenção dupla e fusão multiescala para segmentar pólipos colorretais.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A segmentação precisa dos pólipos colorretais é crucial para a prevenção precoce e o diagnóstico do câncer colorretal. No entanto, devido à alta heterogeneidade dos pólipos em termos de forma, tamanho e textura, bem como à complexidade do ambiente intestinal (como dobras, reflexões especulares e resíduos fecais), os métodos existentes ainda enfrentam desafios significativos na localização de limites e na detecção de pólipos pequenos. Para abordar essas questões, este artigo propõe uma Rede de Segmentação de Pólipos baseada em Convolução em Pinwheel e Atenção Dupla (PWD-Net). A rede proposta adota uma arquitetura codificador–decodificador em formato de U, onde um ResNet pré-treinado é empregado como codificador para extrair características locais multinível. Especificamente, um Módulo de Convolução Pinwheel (PCM) é introduzido na camada de gargalo para capturar a estrutura geométrica global e informações contextuais multidirecionais dos pólipos por meio de núcleos de convolução rotacionados em múltiplos ângulos. Um Mecanismo de Atenção Dupla (DAM) que integra a atenção do canal e a atenção espacial foi projetado para suprimir de forma adaptativa o ruído de fundo e aprimorar as características da região dos pólipos. Além disso, uma estratégia de Fusão de Características Multiescala (MSF) é empregada para combinar informações semânticas profundas com detalhes de fronteira superficiais, garantindo tanto a completude quanto a precisão dos resultados de segmentação. Experimentos realizados com os conjuntos de dados Kvasir-SEG e CVC-ClinicDB demonstram que o PWD-Net alcança coeficientes médios de Dice de 0,865 e 0,944, e escores IoU de 0,765 e 0,892, respectivamente, superando significativamente os métodos de ponta existentes. Estudos de ablação verificam a eficácia de cada módulo, e avaliações cruzadas de conjuntos de dados confirmam a forte capacidade de generalização do modelo. Este estudo oferece uma solução robusta e de alta precisão para segmentação clínica de pólipos, oferecendo valor significativo para o diagnóstico precoce de lesões pré-cancerosas colorretais e apoiando a intervenção assistida por computador.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O câncer colorretal é um dos tumores malignos mais comuns no mundo, com taxas consistentemente altas de incidência e mortalidade. Estudos mostraram que a maioria dos cânceres colorretais se desenvolve a partir de pólipos adenomatosos, um processo que normalmente leva de 10 a 15 anos, proporcionando uma janela de tempo valiosa para detecção precoce e intervenção. Um aumento de 1% na taxa de detecção de adenoma (ADR) pode reduzir o risco de câncer colorretal em aproximadamente 3%, diminuindo significativamente a mortalidade^{dos pacientes.} A colonoscopia, considerada o padrão ouro para rastreamento do câncer colorretal, permite a remoção direta de pólipos durante o exame, reduzindo assim efetivamente a incidência e a mortalidade por câncer.

No entanto, a colonoscopia convencional depende fortemente da experiência e do nível de habilidade dos endoscopistas. Fatores como julgamento subjetivo, fadiga visual e distração podem levar a uma taxa de falhas de 20% a 30%, o que afeta diretamente a eficácia da^{triagem 2}. Portanto, desenvolver sistemas de detecção assistida por computador (CAD) para segmentação automática de pólipos colorretais tem considerável importância para melhorar a ADR e reduzir diagnósticos perdidos. Pesquisas clínicas recentes destacaram ainda mais o interesse em integrar inteligência artificial nos fluxos de trabalho de avaliação endoscópica de lesões, reforçando a necessidade de métodos de segmentação robustos^{e reprodutíveis 3}.

Nos últimos anos, o deep learning alcançou progressos notáveis na análise médica de imagens, especialmente redes neurais convolucionais (CNNs), que demonstram forte capacidade na extração de características e representação para tarefas de segmentação^{de imagens 4}. Como modelo clássico de segmentação de imagens médicas, o U-Net emprega uma arquitetura codificador-decodificador simétrica e conexões de salto para alcançar segmentação precisa em nível de pixel, tornando-se um padrão nesse^{campo 5}. Com base no U-Net, muitas arquiteturas aprimoradas foram propostas para lidar com tarefas complexas de segmentação de imagens médicas. O UNet++ reduz a lacuna semântica entre os mapas de características do codificador e do decodificador ao introduzir conexões de salto aninhado^{e denso 6}. O ResUNet++ integra blocos residuais, módulos de compressão e excitação, convoluções dilatadas e mecanismos de atenção, alcançando forte desempenho na segmentação^{de pólipos 7}. O U^2-Net adota uma estrutura aninhada em dois níveis em formato de U para capturar informações de características multiescala⁸. Mais recentemente, foi proposta uma rede de segmentação profunda baseada em duplo codificador-decodificador de pólipos, aproveitando caminhos paralelos de codificação e decodificação para melhorar ainda mais a precisão da^{segmentação 9}.

Enquanto isso, a introdução de mecanismos de atenção traz novas soluções para aprimoramento de características e supressão de ruído. O Attention U-Net utiliza portas de atenção para focar nas regiões-alvo enquanto suprime informações de fundo irrelevantes¹⁰. A Rede de Atenção Dupla (DANet) pondera adaptativamente características tanto do canal quanto das dimensões^{espaciais 11}, melhorando a percepção de características críticas. Redes de Atenção Tríplice (TANet) aprimoram ainda mais o desempenho da segmentação por meio da seleção adaptativa de recursos multiescala¹².

Com o sucesso das arquiteturas Transformer em processamento de linguagem natural e visão^{computacional 13}, pesquisadores começaram a explorar sua aplicação na segmentação de imagens médicas. O TransUNet foi o primeiro a empregar um Transformer como codificador para modelar dependências de longo alcance^{efetivamente 14}. A Swin-UNet adota uma arquitetura puramente Transformer e alcança agregação global eficiente de informações por meio de um mecanismo de janela^{deslocada 15}. A UTNet propõe uma arquitetura híbrida que combina a capacidade de extração local de características das CNNs com a capacidade global de modelagem do Transformers¹⁶.

No campo da segmentação de pólipos, o Polyp-PVT utiliza um Transformer de visão piramidal para capturar informações semânticas globais^{em múltiplas escalas 17}, enquanto o UNet aninhado em múltiplas escalas aprimora a compreensão contextual ao integrar o Transformers¹⁸. Estudos recentes também exploraram estratégias de aprendizagem de correlação negativa para segmentação de pólipos cruzados^{em domínios 19}, aprimoramento de segmentação aumentada por^{Gompertz 20} e arquiteturas baseadas em atenção que incorporam orientação de limites²¹. Embora essas abordagens melhorem em certa medida o desempenho da segmentação, a segmentação de pólipos ainda enfrenta vários desafios. Primeiro, os pólipos exibem alta heterogeneidade em morfologia, tamanho e textura, variando de micro-pólipos menores que 5 mm a pólipos grandes que ultrapassam 30 mm, com formas que variam de circulares e elípticas a formas altamente irregulares. Segundo, o ambiente intestinal é complexo e variável, onde pregas mucosas, reflexões especulares, resíduos fecais e detritos alimentares introduzem interferência severa de fundo. Terceiro, muitos pólipos têm limites borrados, podem estar parcialmente oclusos por pregas ou submersos em fluidos intestinais, tornando a localização precisa dos limites extremamente^{desafiadora 22}.

Os métodos existentes ainda apresentam limitações claras para enfrentar esses desafios. CNNs tradicionais são eficazes na extração de texturas locais e características das bordas; No entanto, núcleos de convolução quadrada fixa não são adequados para capturar formas geométricas diversas²³, especialmente para pólipos altamente irregulares, e não podem modelar efetivamente características geométricas multidirecionais. Métodos baseados em transformadores podem modelar dependências globais, mas são menos eficazes em capturar detalhes locais finos e informações de fronteira. Além disso, sua alta complexidade computacional os torna menos adequados para aplicações clínicas em tempo^{real 24}. Abordagens recentes de segmentação de pólipos, como PraNet, que usa módulos de atenção reversa para refinar as^{regiões-chave 25}, redes de atenção em cascata guiadas por fronteiras que aprimoram a extração de características de fronteira²⁶, e CAFE-Net, que funde características codificadoras e decodificadoras por meio de mecanismos^{de atenção cruzada 27}, ainda encontram representação insuficiente de características e localização imprecisa dos limites ao lidar com pequenos pólipos²⁸, limites borrados e fundos complexos. Além disso, a maioria dos métodos negligencia a morfologia geométrica e não explora totalmente a informação contextual multidirecional, resultando em segmentação subótima de pólipos de formato irregular.

Em resumo, os métodos atuais baseados em CNN não têm a capacidade de capturar características geométricas multidirecionais devido à sua dependência de núcleos de convolução quadrada fixa. Abordagens baseadas em transformadores oferecem modelagem global, mas sacrificam a precisão local de fronteira e impõem altos custos computacionais. Enquanto isso, as estratégias existentes de fusão aprimoradas e multi-escala não foram otimizadas conjuntamente dentro de um quadro unificado especificamente adaptado para segmentação^{de pólipos 29}. Essas lacunas motivam o desenvolvimento de um método que aborda simultaneamente modelagem geométrica de características, supressão adaptativa de ruído e integração de características em escala cruzada.

Para resolver essas questões, este protocolo apresenta uma Rede de Segmentação de Pólipos baseada em Convolução Pinwheel e Atenção Dupla (PWD-Net). A rede proposta integra modelagem geométrica de características, aprimoramento multidimensional da atenção e fusão de características em múltiplas escalas, permitindo segmentação precisa de pólipos complexos. As principais contribuições deste trabalho são resumidas da seguinte forma: o módulo de convolução do cata-vento (PCM), inspirado na estrutura de um catavento, é proposto um novo design de núcleo de convolução rotacional que captura características geométricas multidirecionais dos pólipos por meio de operações de convolução em múltiplos ângulos (0°, 45°, 90°, 135°, 180°, 225°, 270° e 315°). Este módulo substitui a camada convencional de convolução na etapa de gargalo, permitindo uma percepção eficaz de diversas orientações de arestas e melhorando significativamente a representação de pólipos de formato irregular. O mecanismo de dupla atenção (DAM) aborda ruídos de fundo, como dobras, reflexões e resíduos fecais em imagens de colonoscopia. Um módulo de dupla atenção que integra a atenção por canal e a atenção espacial foi projetado. Incorporado em conexões de salto, este módulo suprime de forma adaptativa a interferência de fundo e aprimora as respostas das características nas regiões de pólipos ao identificar conjuntamente o "que" é importante (dimensão do canal) e "onde" o alvo está localizado (dimensão espacial), garantindo que apenas características refinadas estejam envolvidas na fusão subsequente. A estratégia de fusão de características multiescala (MSF) preserva tanto informações semânticas profundas quanto detalhes superficiais de fronteira por meio de um mecanismo hierárquico introduzido no decodificador. Ao integrar progressivamente características do codificador aprimorado por DAM com características do decodificador upamostrado, essa estratégia compensa efetivamente a perda de detalhes espaciais causada pela amostragem descendente, permitindo a detecção precisa de pequenos pólipos e delimitação precisa dos limites.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudo utiliza apenas conjuntos de dados de imagens de colonoscopia anonimizadas e disponíveis publicamente (Kvasir-SEG). Nenhum novo dado de sujeitos humanos foi coletado. A aprovação ética institucional e o consentimento informado do paciente não foram necessários, conforme confirmado pelas políticas de revisão institucional para análises retrospectivas de conjuntos de dados públicos desidentificados.

1. Preparação de Dados

Baixe o conjunto de dados Kvasir-SEG do repositório oficial33 (https://datasets.simula.no/kvasir-seg/). O conjunto de dados contém 1.000 imagens de pólipos com máscaras de verdade em nível de pixel correspondentes.
Divida aleatoriamente o conjunto de dados em conjuntos de treinamento (800 imagens), validação (100 imagens) e teste (100 imagens) com uma razão de 8:1:1 usando uma semente aleatória fixa (semente = 42). Verifique se nenhuma imagem se sobrepõe entre os três subconjuntos para evitar vazamento de dados.
Redimensione todas as imagens e máscaras correspondentes para 352 x 352 pixels usando interpolação bilinear para imagens e interpolação de vizinho mais próximo para máscaras.
Normalize os valores dos pixels para [0, 1] dividindo por 255, depois aplique a subtração média canal a canal do ImageNet (0,485, 0,456, 0,406) e a normalização do desvio padrão (0,229, 0,224, 0,225).
Aplique as seguintes transformações de aumento apenas ao conjunto de treinamento (não aos conjuntos de validação ou teste): inversão horizontal aleatória (probabilidade = 0,5); inversão vertical aleatória (probabilidade = 0,5); rotação aleatória (alcance: −30° a +30°, probabilidade = 0,5); Redimensionamento aleatório multiescala (fator de escala: 0,75 a 1,25, probabilidade = 0,5)
NOTA: Aplique transformações espaciais idênticas tanto à imagem quanto à sua máscara correspondente para manter o alinhamento. Verifique a correção dos aumentos inspecionando visualmente vários pares imagem–máscara aumentados antes de iniciar o treinamento.

2. Arquitetura Geral

NOTA: Consulte a Figura 1 para a espinha dorsal codificadora-decodificadora em nível macro do PWD-Net, e a Figura 2 para a integração e interação dos módulos centrais dentro do fluxo de características. A arquitetura geral segue um design codificador-decodificador em formato de U para lidar com variações de escala de pólipos e interferência de fundo em imagens de colonoscopia.

Backbone e Caminho de Codificação (Figura 1)
1. Use um ResNet-50 pré-treinado no ImageNet (proveniente do modelo oficial do zoológico PyTorch) como o codificador da espinha dorsal 30. Ajuste finamente todas as camadas de codificadores durante o treinamento.
2. Alimente a imagem de colonoscopia de entrada (redimensionada para 352 x 352 pixels) através de cinco estágios de blocos convolucionais residuais para extrair características hierárquicas. A resolução espacial dos mapas de características é progressivamente reduzida de para os cinco estágios, enquanto as dimensões do canal aumentam correspondentemente (64 → 128 → 256 → 512 → 1024).
3. No gargalo (a camada de codificadores mais profunda), substitua a camada convolucional padrão pelo Módulo de Convolução Pinwheel (PCM, descrito na Seção 3) para capturar a morfologia geométrica global e informações contextuais multidirecionais em baixa resolução.
  NOTA: Os cinco estágios do codificador correspondem aos grupos padrão de camadas ResNet-50: conv1, camada 1, camada 2, camada 3 e camada 4. Os pesos pré-treinados proporcionam inicialização robusta de características de baixo e médio nível, reduzindo o tempo de convergência em pequenos conjuntos de dados médicos.
Componentes-chave e interação de características (Figura 2 e Figura 3)
1. Aplique o Mecanismo de Atenção Dupla (DAM, descrito na Seção 4) à saída de cada estágio do codificador antes de transmiti-lo ao decodificador por meio de conexões de salto. Essa etapa suprime adaptativamente o ruído de fundo gerado por pregas intestinais e reflexões especulares, enquanto potencializa a resposta das características nas regiões de pólipos. Apenas as características filtradas são passadas para a camada decodificadora correspondente.
2. No decodificador, restaurar progressivamente a resolução espacial por meio de amostragem bilinear. Em cada camada de decodificador, concatene as características upamostradas do estágio anterior com as características do codificador aprimorado por DAM da mesma resolução espacial.
3. Aplique duas camadas convolucionais consecutivas (cada uma seguida de normalização em lote e ativação ReLU) para fundir as informações multiescala. Isso constitui a estratégia de Fusão de Características Multiescala (MSF) descrita na Seção 5.
  NOTA: O decodificador procede das camadas profundas para as superficiais (estágio 5 → estágio 1), garantindo que informações profundas de localização semântica e detalhes de fronteira rasa sejam efetivamente integradas em cada nível.
Geração de Produção
1. Aplique uma camada convolucional seguida de uma função de ativação Sigmoid na saída final do decodificador para gerar a máscara de previsão.
2. Binarize a máscara de previsão usando um limiar de 0,5 para obter o resultado final de segmentação, onde pixels com probabilidade prevista ≥ 0,5 são classificados como pólipo e os demais pixels como fundo.

3. Módulo de Convolução do Pinwheel (Figura 3)

O Módulo de Convolução Pinwheel (PCM) substitui a convolução padrão de gargalo para capturar características geométricas multidirecionais dos pólipos. Implemente este módulo da seguinte forma:
1. Defina um núcleo de convolução base W de tamanho 3 x 3 com C_nos canais de entrada e C_{nos canais de saída} .
2. Defina o conjunto de ângulos de rotação Θ = {0°, 45°, 90°, ..., 315°}. Para cada ângulo θ ∈ Θ, gere-se o núcleo rotacionado W_θ aplicando rotação baseada em interpolação bilinear a W. Todos os oito núcleos rotacionados compartilham os mesmos parâmetros base; apenas a disposição espacial dos pesos difere.
3. Para cada ângulo θ, calcule o mapa de características específico para a direção:
  
  onde X é o mapa de características de entrada.
4. Agregue os oito mapas de características direcionais por concatenação canal a canal ao longo do eixo do canal, produzindo um tensor de dimensão (8 x_{C para fora}) x H x W. Depois, aplique uma convolução 1 x 1 para reduzir a dimensão do canal de volta para C_out, seguida de normalização em lote e ativação^{ReLU 31}:
  
  NOTA: A rotação e a interpolação são realizadas nos pesos do kernel, não no mapa de características de entrada. Esse design permite a extração de características multidirecionais eficiente em termos de parâmetros sem aumentar a resolução de entrada. Na implementação atual, C_in = 1024 e C_out = 1024 no estágio de gargalo, correspondendo à dimensão do canal de saída da camada 4 do ResNet-50. Consulte o pacote de código suplementar para a implementação completa.

4. Mecanismo de Dupla Atenção (Figura 4)

NOTA: O Mecanismo de Atenção Dupla (DAM) está embutido em cada conexão de salto para suprimir ruído de fundo e realçar características da região dos pólipos tanto das dimensões do canal quanto das dimensões espaciais.

Atenção ao Canal
O ramo de atenção do canal identifica quais canais de destaque são mais informativos. Dado um recurso de entrada F ∈ R^C×H×W:
1. Comprima as dimensões espaciais via Agrupamento de Média Global para obter um descritor de canal z ∈ R^C×1×1.
2. Passe z por uma MLP (camadas totalmente conexas) de duas camadas com uma razão de redução r = 16. A primeira camada reduz a dimensão de C para C/16 com ativação do ReLU; a segunda camada o restaura de C/16 para C com ativação sigmoide para produzir o vetor de peso do canal A_c:
  
  onde δ denota ReLU e σ denota Sigmoide.
Atenção Espacial
O ramo de atenção espacial localiza onde estão as regiões alvo:
1. Aplique tanto o pool máximo quanto o pool médio ao longo da dimensão do canal para gerar dois mapas de características 2D de tamanho 1 x H x W.
2. Concatene os dois mapas ao longo do eixo do canal para formar um tensor 2 x H x W. Aplique uma camada convolucional de 7 x 7 seguida de ativação sigmoide para produzir o mapa de pesos espaciais A_s ∈ R^1×H×W:
Fusão de Características
1. Fuda as saídas de canal e atenção espacial com a característica de entrada por meio da multiplicação elemento:
  
  onde α e β são coeficientes de balanceamento aprendíveis, ambos inicializados para 0,5 e atualizados conjuntamente com os parâmetros da rede por meio de otimização baseada em gradiente durante o treinamento.
  NOTA: Consulte o pacote suplementar de código (dam_module.py) para a implementação completa.

5. Fusão de Características Multiescala

Aplique a estratégia de fusão de características multiescala (MSF) no decodificador para lidar com a perda de detalhes espaciais em características profundas. Em cada estágio do decodificador, execute o seguinte:
Faça upsampling do mapa de características do estágio decodificador anterior por um fator de 2 usando interpolação bilinear.
Concatene as características upamostradas com as características do codificador aprimorado por DAM, com a resolução espacial correspondente ao longo do eixo do canal.
Aplique duas camadas convolucionais consecutivas de 3 x 3 (cada uma seguida de normalização em lote e ativação^{ReLU 32}) para fundir as características concatenadas.
NOTA: Essa fusão em níveis cruzados garante que os detalhes de fronteira dos pólipos (fornecidos por características superficiais do codificador) e a localização semântica (fornecida por características profundas) sejam preservados simultaneamente, gerando resultados de segmentação finos.

6. Função de Perda e Configuração de Treinamento

Função de Perda
1. Uma função de perda híbrida L_total é adotada para otimizar conjuntamente a rede, abordando o desequilíbrio onipresente entre primeiro plano e classe de fundo na segmentação de pólipos.
  A Perda Binária de Entropia Cruzada (L_BCE) mede a precisão da classificação em nível de pixel:
  
  onde N é o número total de pixels, y_i ∈ {0,1} é o rótulo de verdade fundamental, e ŷ_i ∈ [0,1] é a probabilidade prevista.
2. Perda de Dados (L_Dice) quantifica a similaridade entre as regiões previstas e as regiões de verdade:
  
  onde ε é um fator de suavização (definido para 1 x 10⁻⁵) para evitar divisão por zero.
  Defina λ = 0,5 para equilibrar as contribuições dos dois termos de perda.
Configuração de Treinamento
1. Inicialize o codificador com pesos ResNet-50 pré-treinados pelo ImageNet. Inicialize todas as camadas de decodificador, PCM e parâmetros DAM usando a inicialização uniforme de Kaiming.
2. Configure o otimizador e o cronograma de treinamento da seguinte forma. Use o otimizador Adam com β₁ = 0,9 e β₂ = 0,999. Defina a taxa inicial de aprendizado para 1 x 10⁻⁴. Aplique um cronograma de taxa de aprendizagem por recozimento cosseno com T_máximo = 50 e η_mínimo = 1 x 10⁻⁶. Use um lote de 16 e treine o modelo para 50 épocas.
3. Treine o modelo por 50 épocas no conjunto de treinamento (800 imagens). Ao final de cada época, avalie o modelo no conjunto de validação (100 imagens) usando o coeficiente de Dice como principal métrica de monitoramento.
4. Salve o checkpoint do modelo que atinge o maior coeficiente de dados no conjunto de validação. Use esse ponto de verificação como modelo final para todas as avaliações subsequentes no conjunto de teste.
  NOTA: Parar precocemente não é aplicado explicitamente. A estratégia de seleção de checkpoint de validação dos dados serve como critério de seleção do modelo. Todos os experimentos são realizados utilizando o ambiente de hardware e software especificado na Tabela de Materiais. O treinamento para 50 épocas em 800 imagens leva aproximadamente 2 horas sob a configuração descrita. Todos os resultados reportados são obtidos em uma única execução de treinamento usando a semente aleatória especificada (semente = 42). Consulte o pacote suplementar de código para o script completo de treinamento.

7. Pseudocódigo

Use o Algoritmo 1 como o mapa completo do fluxo de trabalho para a PWD Net. Compare os blocos PCM, DAM, arquitetura principal e pipeline de treinamento no algoritmo com os arquivos correspondentes no pacote de código suplementar.
Implemente o bloco PCM mostrado nas Linhas 4 a 12. Defina um núcleo de convolução base 3 x 3 e gere oito núcleos rotacionados em 0°, 45°, 90°, 135°, 180°, 225°, 270° e 315° usando interpolação bilinear.
Mantenha os mesmos parâmetros base aprendíveis para todos os kernels PCM rotacionados. Para cada ângulo de rotação, calcule um mapa de características específico para a direção.
Concatene os oito mapas de características PCM ao longo da dimensão do canal. Aplique uma convolução 1 x 1, normalização em lote e ativação do ReLU para restaurar a dimensão original do canal.
Implemente o bloco DAM mostrado nas linhas 14 a 19. Aplique o Global Average Pooling para gerar o descritor de canal, depois passe por um MLP de duas camadas com uma razão de redução de 16 para obter os pesos dos canais.
Gere o mapa de atenção espacial aplicando o pool médio por canal e o pool máximo ao recurso de entrada. Concatene os dois mapas e processe-os com uma convolução 7 x 7 seguida pela ativação Sigmoide.
Fuda o canal DAM e as saídas de atenção espacial com a característica de entrada usando multiplicação elemento a elemento. Pese os dois mapas de atenção com coeficientes aprendíveis α e β, ambos inicializados em 0,5.
Construa a arquitetura principal PWD Net mostrada nas Linhas 21 a 32. Passe a imagem de entrada por cinco estágios de um codificador ResNet 50 pré-treinado para obter e1 a e5, com resolução espacial diminuindo de H x W para H/32 x W/32.
Aplique PCM em e5 no gargalo. Aplique DAM ao e1 ao e4 antes de enviar esses recursos para o decodificador através de conexões de salto.
Decodifique o mapa de características das camadas profundas para as superficiais. Em cada nível do decodificador, faça upsampling da característica anterior, concatene-a com a característica correspondente do codificador aprimorado DAM e aplique DoubleConv para fusão de características.
Gerar a saída de segmentação com uma convolução 1 x 1 seguida pela ativação Sigmoide. Use o mapa de probabilidade pixel a pixel resultante como a máscara prevista.
Implemente o ciclo de treinamento mostrado nas linhas 34 a 39. Em cada época, execute a propagação para frente através do PWD Net e calcule a máscara prevista.
Calcule a perda de treinamento como 0,5 x perda BCE mais 0,5 x perda de dados. Atualize todos os parâmetros aprendíveis com o otimizador Adam por meio da retropropagação.

Algoritmo 1: Segmentação de Pólipos PWD-Net
1: Entrada: Imagem de colonoscopia I ∈^{R H×W×3}
2: Saída: Máscara de segmentação M ∈ {0,1}^(H×W)
3:
4: função Módulo de Convolução PCM(X) ▷ Pinwheel
5: Defina núcleo base W (3 x 3), ângulos Θ = {0°, 45°, ..., 315°}
6: para cada θ ∈ Θ fazer
7: W_θ ← BilinearRotate(W, θ) ▷ Rotate kernel
8: Y_θ ← Conv2d(X,_{W θ}) ▷ Características específicas de direção
9: fim para
10: Y_out ← ReLU(BN(Conv1 x 1(Concat({Y_θ})))) ▷ Aggregate
11: devolver_{Y para fora}
12: função final
13:
14: função DAM(F) ▷ Mecanismo de Atenção Dupla
15: A_c ← Sigmoide(MLP(AvgPool(F))) ▷ Atenção do canal (r=16)
16: A_s ← Sigmoid(Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ Atenção espacial
17: F' ← F ⊗ (α · A_c + β · A_s) ▷ Fuse com α aprendível, β (init=0,5)
18: retorno F'
19: função final
20:
21: função PWD-Net(I)
22: Codificador: e₁,_{e 2},_{e 3},_{e 4}, e₅ ← ResNet50_Stages(I) ▷ codificador pré-treinado de 5 estágios
23: Gargalo: b ← PCM(e₅) ▷ Aplique PCM no gargalo
24: Pular conexões: s_i ← DAM(_{e i}) para i = 1, 2, 3, 4 ▷ Características do codificador do filtro
25: Decodificador:
26: _{d 4} ← DoubleConv(Concat(Up(b),_{s 4}))
27: _{d 3} ← DoubleConv(Concat(Up(d₄), s₃))
28: _{d 2} ← DoubleConv(Concat(Up(d₃), s₂))
29: _{d 1} ← DoubleConv(Concat(Up(d₂), s₁))
30: M ← Sigmoid (Conv1 x 1(d₁))
31: retorno M
32: função final
33:
34: Treinamento:
35: para cada época faça
36: M̂ ← PWD-Net(I)
37: L ← 0,5 · AC(M̂,_{M gt}) + 0,5 · Perda de Dados(M̂,_{M gt}) ▷ λ = 0,5

38: Atualizar parâmetros via retropropagação (Adamotimizar r)
39: fim para

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Configuração Experimental
Conjunto de dados

O conjunto de dados Kvasir SEG foi utilizado para avaliar o comportamento de segmentação do PWD Net em imagens de colonoscopia com aparições heterogêneas de pólipos. O conjunto de dados contém imagens de pólipos anotadas com 1.000 pixels e inclui variação no tamanho, forma, textura, iluminação e complexidade de fundo dos pólipos, tornando-o adequado para avaliar detecção de pequenos alvos, localização de limites e robustez a interferências visuais. O conjunto de dados foi dividido em subconjuntos de treinamento, validação e teste, e o conjunto final de teste foi usado apenas para avaliação de desempenho. A distribuição das imagens é resumida na Tabela 1.

Detalhes da Implementação

As configurações de implementação necessárias para a reprodutibilidade são resumidas na Tabela 2, e os detalhes completos dos procedimentos são fornecidos nas etapas de Preparação de Dados e na Seção 5.2 do Protocolo. Para interpretar os resultados, todos os experimentos relatados usaram a mesma resolução de entrada, ambiente de hardware e condições de avaliação listadas na Tabela de Materiais. Os valores reportados são baseados no checkpoint de dados de validação selecionado de uma única execução usando seed = 42, então os resultados devem ser interpretados como desempenho sob uma divisão experimental fixa, e não como resultados médios de validação cruzada.

Métricas de Avaliação

O desempenho da segmentação foi avaliado usando o coeficiente de Dice, Interseção sobre União, precisão em nível de pixel e velocidade de inferência. Coeficiente de dados e Interseção sobre União foram usados como as principais métricas baseadas em sobreposição porque refletem diretamente a concordância entre a máscara prevista e a região do pólipo anotada por especialistas. A precisão em nível de pixel foi relatada como uma medida suplementar porque imagens de colonoscopia frequentemente contêm grandes regiões de fundo. A velocidade de inferência, reportada em quadros por segundo, foi incluída para avaliar se o modelo mantém eficiência computacional prática enquanto melhora a qualidade da segmentação.

Comparação com métodos existentes
Para demonstrar o comportamento e a eficácia do PWD-Net, é realizada uma comparação com cinco métodos representativos de segmentação de pólipos: CBSA (Rede de Atenção Espacial Amplificada por Canal⁾³⁴, FSSA (Rede de Atenção Espacial Compartilhada de Características), MSF (Rede de Fusão Multi-Escala), Pinwheel-Conv (linha base de Convolução do Pinwheel sem módulos de atenção ou fusão) e PolaLinear (Rede de Atenção Linear Polarizada). Todos os métodos de comparação são reimplementados usando seus códigos-fonte oficialmente lançados e treinados no mesmo conjunto de treinamento Kvasir-SEG (800 imagens) sob pré-processamento, resolução de entrada e configurações de avaliação idênticas para garantir uma comparação justa. A Tabela 3 apresenta os resultados quantitativos no conjunto de teste.

Como mostrado na Tabela 3, o PWD-Net alcança um coeficiente de dados de 0,865 e um IoU de 0,765, representando melhorias de 1,8% no Dice e 4,8% no IoU em comparação com o próximo melhor método (CBSA). Notavelmente, a PWD-Net alcança isso com parâmetros de 9,1M, comparado a 18,4M para a CBSA, indicando eficiência favorável. Embora PolaLinear e Pinwheel-Conv ofereçam velocidades de inferência mais rápidas (79 e 72 FPS, respectivamente), sua precisão de segmentação é visivelmente menor, sugerindo que o PWD-Net oferece um equilíbrio razoável entre precisão e custo computacional para o conjunto de dados avaliado. Para ilustrar o comportamento qualitativo de segmentação, cinco amostras representativas de teste cobrindo pólipos pequenos, pólipos grandes, fundos complexos e limites borrados são selecionadas para comparação visual. A Figura 5 apresenta os resultados de segmentação de quatro métodos de comparação selecionados (CBSA, FSSA, MSF e PWD-Net) junto com a verdade de base. Cada coluna de previsão é rotulada com o nome correspondente do método. Pinwheel-Conv e PolaLinear são omitidos dessa figura para maior clareza visual, pois seu desempenho quantitativo é substancialmente menor; essa figura, portanto, representa um subconjunto selecionado dos métodos comparados na Tabela 3.

Como mostrado na Figura 5, em cenários de pequenos pólipos (primeira e quinta linhas), FSSA e MSF apresentam detecções perdidas, enquanto o PWD-Net captura os alvos de forma mais completa. Em cenários de grandes pólipos (segunda e terceira linhas), CBSA e FSSA produzem irregularidades perceptíveis nos limites, enquanto o PWD-Net gera limites mais suaves. No cenário de fronteira borrada (quarta linha), o PWD-Net demonstra supressão eficaz do ruído de fundo por meio do mecanismo de atenção dupla.

Estudo de Ablação
Para analisar a contribuição de cada componente central no PWD-Net, é realizado um estudo sistemático de ablação. Utilizando o ResNet-50 como codificador de espinha dorsal para formar o modelo base, o Módulo de Convolução Pinwheel (Pinwheel), o Dual-Attention Mechanism (Dual-Attn) e o módulo Multi-Scale Feature Fusion (MSF) são incorporados de forma incremental. A Tabela 4 resume os resultados quantitativos.

Os principais achados da Tabela 4 podem ser resumidos da seguinte forma. Primeiro, adicionar qualquer módulo individual melhora o desempenho do modelo base. O Mecanismo de Atenção Dupla traz os ganhos mais notáveis (Dados: +2,0%, IoU: +2,7%), apoiando a eficácia da supressão adaptativa de ruído. O Módulo de Convolução Pinwheel contribui com uma melhoria de 1,6% no Dice, indicando o benefício da extração de características multidirecionais para formas irregulares de pólipos. Segundo, combinar a Convolução do Pinwheel e o Mecanismo de Atenção Dupla aumenta ainda mais o desempenho para Dados = 0,858 e IoU = 0,748, sugerindo complementaridade entre os dois módulos. Por fim, o PWD-Net completo (integrando os três módulos) alcança o melhor desempenho observado (Dice = 0,865, IoU = 0,765), com melhorias de 3,3% e 6,0%, respectivamente, em comparação com a linha base, demonstrando a contribuição de cada componente proposto neste conjunto de dados.

Análise do Processo de Treinamento
Para ilustrar a dinâmica de treinamento e as características de convergência do PWD-Net, métricas-chave de desempenho são registradas e visualizadas ao longo de 50 épocas de treinamento. A Figura 6 mostra as variações da função de perda, coeficiente de dados, IoU e precisão durante o treinamento.

Como mostrado na Figura 6(a), tanto a perda de treinamento quanto a perda de validação diminuem rapidamente nas primeiras 10 épocas e depois se estabilizam gradualmente. A perda de validação permanece um pouco maior do que a perda de treinamento durante todo o processo, mas as duas curvas seguem uma tendência consistente com uma pequena lacuna, indicando que o modelo não sofre de overfitting severo. A Figura 6(b) mostra que o coeficiente de Dice aumenta acentuadamente no estágio inicial de treinamento, converge após aproximadamente a 30ª época e se estabiliza acima de 0,86. A curva IoU na Figura 6(c) apresenta uma tendência de crescimento semelhante, atingindo cerca de 0,765 na fase final de treinamento. A Figura 6(d) indica que a precisão converge acima de 94%. As tendências estáveis de validação nos estágios intermediário e final de treinamento sugerem que a estratégia adotada de aumento de dados e o cronograma de recozimento cosseno contribuem para mitigar o sobreajuste nesse conjunto de dados.

Desempenho em diferentes tamanhos de pólipos
Para avaliar melhor a aplicabilidade do PWD-Net em diferentes cenários clínicos, o conjunto de teste (100 imagens) é dividido em três categorias de acordo com a razão entre a área dos pólipos e a área total da imagem: pólipos pequenos (< 5%), pólipos médios (5%–30%) e pólipos grandes (> 30%). Essa classificação reflete a influência da escala de pólipos na dificuldade de segmentação. A Tabela 5 apresenta o desempenho quantitativo em cada categoria. Como mostrado na Tabela 5, o PWD-Net alcança o melhor desempenho na categoria de pólipos médios (Dados = 0,882, IoU = 0,790), o que é consistente com a representação maior dessa categoria (54 de 100 imagens de teste). O desempenho em pólipos grandes permanece em nível comparável (Dados = 0,861, IoU = 0,760). O desempenho em pólipos pequenos é relativamente menor (Dados = 0,812, IoU = 0,685), principalmente porque alvos pequenos ocupam uma pequena proporção da imagem e são mais suscetíveis a ruídos de fundo com informações de fronteira mais escassas.

Esses resultados sugerem que a capacidade de captura de características multidirecionais do Módulo de Convolução Pinwheel e a capacidade de localização espacial do Mecanismo de Atenção Dupla contribuem para manter uma qualidade razoável de segmentação entre diferentes escalas de pólipos no conjunto de teste avaliado.

figure-results-1
Figura 1: Estrutura do Modelo PWD-Net. Estrutura geral da proposta Rede de Segmentação de Pólipos baseada em Convolução de Pinwheel e Atenção Dupla (PWD-Net), ilustrando o codificador (ResNet-50), gargalo (PCM), conexões de salto aprimoradas por DAM, decodificador MSF e geração de saída para segmentação de pólipos colorretal. Por favor, clique aqui para ver uma versão ampliada desta figura.

figure-results-2
Figura 2: Fluxograma Geral de Arquitetura do PWD-Net. Fluxograma detalhado da arquitetura completa do PWD-Net, mostrando o codificador ResNet-50 de cinco estágios, gargalo PCM, conexões de salto DAM, decodificador de fusão de características multiescala e geração final de previsão. Por favor, clique aqui para ver uma versão ampliada desta figura.

figure-results-3
Figura 3: Diagrama Esquemático do Módulo de Convolução Pinwheel. Esquema estrutural e operacional do Módulo de Convolução Pinwheel, demonstrando núcleos de convolução rotacionados em múltiplos ângulos, rotação baseada em interpolação bilinear, concatenação de canais e agregação de convoluções 1 x 1. Por favor, clique aqui para ver uma versão ampliada desta figura.

figure-results-4
Figura 4: Diagrama estrutural do mecanismo de atenção dupla. Diagrama arquitetônico do DAM, mostrando o ramo paralelo de atenção do canal (Global Average Pooling → MLP com razão de redução r = 16 → Sigmoide) e o ramo de atenção espacial (pooling canal a canal → convolução 7 x 7 → Sigmoide), seguido por fusão ponderada com coeficientes aprendíveis α e β. Por favor, clique aqui para ver uma versão maior desta figura.

figure-results-5
Figura 5: Comparação qualitativa dos resultados da segmentação. Cada linha representa uma amostra de teste. Colunas da esquerda para a direita: Imagem de entrada, Verdade de Terreno, CBSA, FSSA, MSF e PWD-Net (nosso). Pinwheel-Conv e PolaLinear são omitidos dessa figura para maior clareza visual; veja a Tabela 3 para a comparação quantitativa completa. Por favor, clique aqui para ver uma versão ampliada desta figura.

figure-results-6
Figura 6: Curvas de treinamento do PWD-Net ao longo de 50 épocas. (a) Perda de treinamento e validação. (b) Coeficiente de dados. (c) Interseção sobre Union (IoU). (d) Precisão em nível de pixel. Por favor, clique aqui para ver uma versão ampliada desta figura.

Subconjunto de Treinamento	Número de Amostras	Proporção
Conjunto de Trem	800	80%
Conjunto de Validação	100	10%
Conjunto de Testes	100	10%
Total Set	1000	100%

Tabela 1: Estatísticas do Conjunto de Dados. Distribuição dividida do conjunto de dados para o conjunto de dados Kvasir-SEG (1.000 imagens no total), mostrando o número de imagens e a proporção atribuídas aos subconjuntos de treinamento, validação e teste (semente aleatória = 42).

Categoria	Item do Parâmetro	Definição de parâmetros
Estrutura de Aprendizado Profundo	Estrutura	PyTorch
Ambiente de Hardware	GPU	NVIDIA Tesla P100
Método de Aceleração	Aceleração da GPU	CUDA
Configurações de Entrada	Tamanho da Imagem de Entrada	352 × 352
Formato da imagem	Formato da imagem	Imagem RGB
Otimizador	Otimizador	Adam
Taxa de Aprendizagem Inicial	LR inicial	1 × 10⁻⁴
Tamanho do lote	Tamanho do lote	16
Épocas de Treinamento	Épocas	50
Função de Perda	Função de Perda	Perda de Dados + ACE

Tabela 2: Configurações de parâmetros experimentais. Configurações experimentais de parâmetros para treinamento e avaliação do PWD-Net. Consulte as etapas de Preparação de Dados e a Seção 5.2 do Protocolo para o procedimento completo de implementação passo a passo.

Método	Dados ↑	IoU ↑	Precisão ↑	Parâmetros (M) ↓	FPS ↑
CBSA	0.8466	0.717	0.9325	18.4	36
FSSA	0.7109	0.551	0.9012	9.8	61
MSF	0.7337	0.585	0.9086	11.5	54
Pinwheel-Conv	0.8007	0.6742	0.9401	7.9	72
PolaLinear	0.7213	0.5707	0.9113	6.6	79
PWD-Net (nosso)	0.865	0.7651	0.9478	9.1	63

Tabela 3: Resultados Quantitativos de Comparação. Comparação quantitativa do PWD-Net com cinco métodos existentes de segmentação de pólipos no conjunto de teste Kvasir-SEG (100 imagens). Todos os métodos são avaliados sob divisões de dados idênticas, pré-processamento e resolução de entrada (352 x 352). ↑ indica que mais alto é melhor; ↓ indica que menor é melhor. Métodos marcados com * indicam resultados citados da publicação original em vez de reimplementados.

Configuração	Pinwheel	Dual-Attn	MSF	Dados ↑	IoU ↑
Linha de base	×	×	×	0.832	0.705
+ Cata-vento	√	×	×	0.848	0.725
+ Dual-Attn	×	√	×	0.852	0.732
+ MSF	×	×	√	0.844	0.72
+ Pinwheel + Duplo-Atenção.	√	√	×	0.858	0.748
Full (PWD-Net)	√	√	√	0.865	0.765

Tabela 4: Resultados do Estudo de Ablação. Resultados do estudo de ablação no conjunto de teste Kvasir-SEG, mostrando a contribuição incremental do Módulo de Convolução Pinwheel (Pinwheel), do Dual-Attention Mechanism (Dual-Attn) e da Multi-Scale Feature Fusion (MSF) para o codificador ResNet-50 básico.

Tipo de pólipo	Número	Dados ↑	IoU ↑
Pólipos pequenos (< 5%)	21	0.812	0.685
Pólipos Médios (5%–30%)	54	0.882	0.79
Pólipos grandes (> 30%)	25	0.861	0.76

Tabela 5: Desempenho do PWD-Net em diferentes tipos de pólipos. Desempenho do PWD-Net em diferentes categorias de tamanho de pólipos dentro do conjunto de teste Kvasir-SEG (100 imagens). O tamanho do pólipo é definido pela razão entre a área do pólipo e a área total da imagem.

Arquivo suplementar: Arquivo comprimido contendo a implementação do framework PWD-Net. O arquivo inclui model.py definir a arquitetura de rede com o Módulo de Convolução Pinwheel (PCM) e o Mecanismo de Atenção Dupla (DAM), train.py implementar o pipeline de carregamento de dados, função de perda e procedimento de treinamento, test.py para inferência e avaliação de modelos em conjuntos de dados de teste, além de requirements.txt listar todas as bibliotecas Python necessárias e suas versões correspondentes. Por favor, clique aqui para baixar este arquivo.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Várias escolhas de design no protocolo PWD-Net são críticas para alcançar resultados de segmentação confiáveis e merecem atenção cuidadosa durante a implementação. Primeiro, a seleção e inicialização da espinha dorsal do codificador influenciam diretamente o comportamento de convergência e o desempenho final. O protocolo emprega um codificador ResNet-50 pré-treinado no ImageNet, que oferece inicialização robusta de características de baixo e médio nível. Isso é particularmente importante para tarefas de segmentação de imagens médicas onde os dados de treinamento disponíveis são limitados (800 imagens no presente estudo). O ajuste fino de todas as camadas do codificador, em vez de congelá-las, permite que a rede adapte as características pré-treinadas às características específicas das imagens de colonoscopia, como texturas mucosas e reflexões especulares. Segundo, a colocação de cada módulo central dentro da arquitetura é intencional. O Módulo de Convolução Pinwheel (PCM) está posicionado no gargalo, onde a resolução espacial é menor, mas a informação semântica é mais rica, permitindo captura eficiente de padrões geométricos globais sem custos computacionais excessivos. O Mecanismo de Atenção Dupla (DAM) é embutido nas conexões de salto, em vez do decodificador, garantindo que o ruído de fundo seja suprimido antes que as características sejam transmitidas ao decodificador, impedindo que características contaminadas se propaguem pelos estágios de fusão. O estudo de ablação (Tabela 4) apoia esse projeto: o DAM contribui com o maior ganho individual de desempenho (Dados: +2,0%), confirmando a importância da supressão inicial de ruído na pipeline de características. Terceiro, a função de perda híbrida (0,5 · ACE + 0,5 · Dice) equilibra a precisão da classificação em nível de pixel com a otimização de sobreposição em nível regional. Essa combinação é particularmente relevante para segmentação de pólipos, onde o desequilíbrio de classe em primeiro plano e fundo é comum. A ponderação igual (λ = 0,5) é adotada como padrão; ajustar essa razão pode ser necessário para conjuntos de dados com diferentes distribuições de classes (veja Solução de Problemas abaixo).

Modificações e Solução de Problemas
As seguintes modificações e diretrizes de solução de problemas são fornecidas para adaptar o protocolo a diferentes ambientes experimentais. Ao aplicar o protocolo a conjuntos de dados com diferentes resoluções de imagem ou distribuições de tamanho de pólipo, a resolução de entrada (352 x 352) pode precisar ser ajustada. Tamanhos maiores de entrada podem melhorar a detecção de pequenos pólipos ao custo de maior consumo de memória e redução da velocidade de inferência. Se a perda de treinamento não convergir dentro de 50 épocas, considere reduzir a taxa inicial de aprendizado (por exemplo, para 5 x 10⁻⁵) ou aumentar o ciclo de recozimento do cosseno. Se o modelo apresentar altas taxas de falsos positivos em regiões com reflexões especulares severas ou dobras mucosas, aumentar o peso do componente de perda de dados (por exemplo, λ = 0,4 para BCE, 0,6 para dados) pode melhorar a precisão dos limites em detrimento da precisão em nível de pixel. Por outro lado, se o modelo subsegmentar pequenos pólipos, aumentar o peso BCE pode ajudar. O número de ângulos de rotação no PCM (atualmente oito, de 0° a 315° em incrementos de 45°) representa um equilíbrio entre cobertura direcional e custo computacional. Reduzir para quatro ângulos (0°, 90°, 180°, 270°) diminui o cálculo, mas pode diminuir a sensibilidade aos limites oblíquos de pólipos. A razão de redução r = 16 no ramo de atenção de canal do DAM segue a convenção estabelecida por redes anteriores de compressão e^{excitação 32}; Razões menores (por exemplo, r = 8) aumentam a capacidade do modelo, mas podem levar ao sobreajuste em conjuntos de dados pequenos. Para conjuntos de dados significativamente maiores que o Kvasir-SEG, considere aumentar o tamanho do lote e as épocas de treinamento de acordo, e monitorar métricas de validação para determinar o ponto de parada apropriado.

Significado em relação a métodos alternativos
A arquitetura PWD-Net aborda limitações específicas das abordagens existentes por meio de três módulos complementares. Comparado a métodos que dependem de núcleos quadrados padrão de convolução, o PCM oferece sensibilidade direcional por meio de grãos rotacionados em múltiplos ângulos, permitindo melhor adaptação à morfologia irregular e diversa dos pólipos colorretais. Comparado com mecanismos de atenção unidimensionais (por exemplo, atenção apenas por canal em redes de aperto e^{excitação 33}), o DAM modela conjuntamente a importância do canal e espacial, oferecendo supressão de ruído mais abrangente no ambiente complexo de colonoscopia. Comparado com arquiteturas baseadas em Transformers, como^{TransUNet 34} e^{Polyp-PVT 35}, que oferecem modelagem global forte, mas a custos computacionais maiores, o PWD-Net alcança desempenho competitivo com tamanho de modelo relativamente compacto (9,1M de parâmetros) e velocidade prática de inferência (63 FPS), conforme documentado na Tabela 3.

Deve-se notar que as comparações apresentadas neste estudo (Tabela 3) são realizadas sob condições controladas, com divisões de dados, pré-processamento e protocolos de avaliação idênticos. As diferenças de desempenho observadas são específicas para o conjunto de testes Kvasir-SEG (100 imagens) usado neste estudo e podem não se generalizar diretamente para outros conjuntos de dados ou ambientes clínicos. Uma comparação mais ampla, incorporando referências estabelecidas adicionais (por exemplo, PraNet³⁶, ResUNet++³⁷) sob benchmarks padronizados de múltiplos conjuntos de dados, fortaleceria ainda mais as evidências e está planejada para trabalhos futuros. Trabalhos recentes em arquiteturas duplas codificador-decodificador para segmentação de^{pólipos 38} demonstraram o potencial de caminhos paralelos de codificação e decodificação. A arquitetura PWD-Net difere por focar em modelagem geométrica rotacional e filtragem de atenção dupla dentro de um único pipeline codificador-decodificador, representando uma filosofia de design complementar.

Várias limitações importantes deste estudo devem ser reconhecidas. Primeiro, em relação ao escopo experimental, o estudo atual reporta resultados exclusivamente no conjunto de dados Kvasir-SEG com uma única divisão aleatória de 800 imagens de treinamento, 100 de validação e 100 de teste. O tamanho do conjunto de teste (100 imagens) é relativamente pequeno, e apenas uma única execução de treinamento é reportada sem experimentos repetidos ou validação cruzada. Consequentemente, as métricas de desempenho reportadas podem estar sujeitas a variações relacionadas à divisão específica dos dados. Trabalhos futuros devem incorporar validação cruzada k-fold ou múltiplas divisões aleatórias com desvios padrão relatados para fornecer estimativas de desempenho mais robustas. Segundo, a PCM introduz sobrecarga computacional adicional por meio da rotação e agregação do kernel em múltiplos ângulos. Embora o modelo geral permaneça compacto (9,1 milhões de parâmetros), a implantação em dispositivos com recursos limitados em ambientes clínicos pode exigir otimização adicional por meio de técnicas como destilação de conhecimento ou poda de modelos. Terceiro, o modelo é treinado e avaliado exclusivamente com imagens estáticas, enquanto a colonoscopia clínica envolve fluxos de vídeo em tempo real nos quais a aparência, o tamanho e o ponto de vista dos pólipos mudam dinamicamente ao longo de quadros consecutivos. Embora a velocidade de inferência de 63 FPS seja compatível com taxas de quadros em tempo real, essa métrica sozinha não constitui validação clínica. Validação prospectiva de dados de vídeo endoscópico, estudos de leitores e análises de desfechos clínicos posteriores seria necessária antes que qualquer alegação de prontidão clínica possa ser^feita 39,40,41. O trabalho atual deve ser entendido como uma contribuição metodológica, e não como um sistema clinicamente validado.

Quarto, a via de tradução clínica para segmentação de pólipos assistida por IA vai muito além da precisão da segmentação. Revisões recentes destacaram que ferramentas avançadas de imagem e análise devem ser integradas a fluxos de trabalho endoluminais mais amplos, incluindo classificação de lesões, estadiamento e planejamento de tratamento. O protocolo atual foca exclusivamente na segmentação binária de pólipos e não aborda a classificação^{patológica 42} (por exemplo, pólipos adenomatosos vs. hiperplásicos) nem a avaliação de risco de malignidade, que são essenciais para orientar decisões clínicas. Quinto, os conjuntos de dados utilizados neste estudo são derivados principalmente de exames de colonoscopia em adultos. Não há dados sobre pólipos pediátricos, pólipos associados à doença inflamatória intestinal e outros tipos patológicos especiais. A generalização do modelo para essas populações permanece sem teste. Sexto, embora experimentos de ablação e visualizações qualitativas sejam fornecidos para ilustrar a função de cada módulo, a interpretabilidade do modelo permanece limitada. O processo de tomada de decisão dos modelos de deep learning não é totalmente transparente, o que pode afetar a confiança e a adoção dos clínicos. Trabalhos futuros poderiam incorporar técnicas de visualização baseadas em gradiente para fornecer explicações mais intuitivas das previsões^{do modelo 43}.

Apesar das limitações mencionadas acima, o protocolo PWD-Net fornece uma estrutura reprodutível para segmentação de pólipos que pode servir como base para desenvolvimentos futuros. As direções potenciais incluem: estender o modelo para análise de colonoscopia baseada em vídeo, incorporando técnicas de modelagem temporal; adicionar um ramo de classificação para segmentação de ponta a ponta e tipagem patológica; expandir a avaliação para conjuntos de dados multicêntricos maiores e mais diversos; e explorar a integração em plataformas robóticas endoluminais, onde a análise de imagens assistida por IA é cada vez mais reconhecida como uma tecnologia chave^{e habilitadora 44,45}. O pacote de código suplementar fornecido com este protocolo tem como objetivo facilitar a reprodução e adaptação do método por outros grupos de pesquisa.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Os autores não têm nada a revelar.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudo foi financiado pelo Programa Nacional de P&D da China (Programas nºs 2022YFC3500200 e 2022YFC3500204).

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Adam Otimizador	—	—	Incluído no PyTorch
Albumentações	Equipe de Albumentações	v1.0+	Biblioteca de aumento de dados
Kit de Ferramentas CUDA	NVIDIA	v11.3+	Aceleração da GPU
Conjunto de dados Kvasir-SEG	SimulaMet	—	https://datasets.simula.no/kvasir-seg/
Matplotlib	Comunidade Matplotlib	v3.4+	Visualização de curvas de treinamento
NumPy	Comunidade NumPy	v1.21+	Computação numérica
NVIDIA Tesla P100	NVIDIA	P100-PCIE-16GB	GPU para treinamento e inferência
OpenCV	Comunidade OpenCV	v4.5+	Pré-processamento de imagem
Python	Fundação de Software Python	v3.8+	Linguagem de programação
PyTorch	Meta Plataformas	v1.12+	Estrutura de aprendizado profundo
Pesos pré-treinados ResNet-50	Modelo Zoológico PyTorch	—	ImageNet-1K pré-treinado
Ubuntu	Canônico	18.04+	Sistema operacional

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Rede de Segmentação de Pólipos Baseada em Convolução de Cataventos e Atenção Dupla para Diagnóstico de Lesão Pré-cancerosa Colorretal

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles