Research Article

Um Conjunto Multimodal Explicável que Preserva a Privacidade para Classificação de Lesões de Pele

June 12th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O trabalho proposto visa desenvolver e avaliar um arranjo multimodal de tecido multimodal explicável e preservador da privacidade para classificação precisa de lesões cutâneas, integrando recursos de aprendizado profundo, metadados clínicos e técnicas de IA explicáveis para melhorar a precisão diagnóstica, a transparência e o suporte confiável à decisão clínica para a detecção precoce do câncer de pele.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Entre as doenças dermatológicas, o câncer de pele está entre os mais fatais. O diagnóstico precoce e preciso é importante para melhorar o prognóstico do paciente. No entanto, os métodos diagnósticos tradicionais baseados em IA enfrentam vários desafios, incluindo preocupações com privacidade, interpretabilidade limitada e um desequilíbrio severo de classes em conjuntos de dados de lesões cutâneas multiclasse. Para superar esses desafios, o artigo proposto propõe um modelo multimodal de classificação de lesões cutâneas com consciência da privacidade e explicável, que combina modelos complexos de aprendizado profundo e uma abordagem de modelagem em conjunto com métodos de inteligência artificial explicáveis. A avaliação experimental é realizada utilizando dados públicos de referência HAM10000 sobre classificação de lesões cutâneas multiclasse, acessíveis por meio do Kaggle Hub, distribuídos em sete classes clinicamente significativas de lesões (akiec, bcc, bkl, df, mel, nv, vasc). Para equilibrar os dados, uma técnica de balanceamento de classes é usada para impulsionar as classes minoritárias. O EfficientNet B4, DenseNet201 e MobileNetv2 são usados para extrair representações profundas de características, depois combinadas com metadados clínicos salientes para criar um espaço robusto de características multimodal. Essas características multimodais são usadas para treinar XGBoost, LightGBM, Deep Neural Classifier (DNC), que resultaram em precisões de classificação de 92%, 90% e 94%, respectivamente. Uma estratégia de conjunto empilhado é aplicada para combinar as saídas do XGBoost, LightGBM e Deep Neural Classifier (DNC), o que leva a uma melhoria de precisão de 96%. Técnicas de interpretabilidade de modelos fornecem explicações em nível de características que aumentam a transparência. Os achados experimentais comprovaram a viabilidade do modelo sugerido em termos de eficiência com classificação clinicamente relevante na vida real de lesões cutâneas.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O câncer de pele representa uma carga significativa para a saúde global, com taxas crescentes de incidência relatadasmundialmente. A radiação artificial é reconhecida como um fator importante que contribui para o câncer de pele, levando a mutações genéticas que resultam em proliferação celular descontrolada e desenvolvimento tumoral nas célulasda pele 1,2. Os cânceres de pele compreendem um grupo de doenças, incluindo melanoma, carcinoma de células escamosas e carcinoma basocelular (BCC). As causas, a apresentação clínica e os fatores prognósticos dessas condições variam3. Doenças de pele se tornaram um obstáculo no diagnóstico médico devido às semelhanças em nível de pixel4. Em 2022, houve 331.722 casos estimados de melanoma (58.667 mortes) e 1,2 milhão de casos de NMSC (69.416 mortes) globalmente. As taxas de mortalidade de maior índice padronizado por idade (ASR) para melanoma foram na Oceania (29,78/100.000), América do Norte (16,3) e Europa (10,43). No entanto, a razão mortalidade/incidência foi maior na África (0,35) e Ásia (0,30) em comparação com América do Norte e Oceania (0,02 em ambas), o que pode refletir um prognósticomais pior 1. Em dermatologia, o diagnóstico e o monitoramento de lesões cutâneas têm se baseado principalmente em exame visual e outras avaliações não invasivas. Métodos invasivos não são aplicados porque podem danificar as lesões e impedir a realização de um acompanhamento clínico do crescimentoda lesão 5. Lesões cutâneas podem ser de diferentes tipos: melanoma (MEL), dermatofibroma (DF), ceratose actínica e carcinoma intraepitelial (AKIEC), carcinoma basocelular (BCC), ceratose benigna (BKL), nevo melanocítico (NV) e lesões vasculares (VASC), conforme definido no conjunto de dadosHAM10000 5. Os principais desafios na classificação de imagens dermatoscópicas são a presença de cabelos, tintas, marcas de régua, manchas coloridas, brilhos, gotas, bolhas de óleo, vasos sanguíneos, áreas hiperpigmentadas e/ou lesõesinflamatórias 6. Já foram realizados estudos anteriormente sobre seleção de características e aprendizado profundo para imagem médica e classificação de lesõescutâneas 7,8.

Abordagens baseadas em visão computacional para diagnóstico de câncer de pele e integração de características artesanais e profundas também foraminvestigadas 9, juntamente com estratégias de fusão de características para melhorar o desempenho naclassificação 10. Avanços recentes enfatizam ainda mais a integração do aprendizado de máquina em sistemas de saúde e frameworks seguros de processamento de dadosmédicos 11,12. A utilização da IA em saúde, impulsionada por algoritmos computacionais avançados, tem potencial para oferecer programas de cuidados integrados personalizados e eficientes, especialmente benéficos para pacientes em ambientes remotos edomiciliares 13. Ao utilizar conjuntos de dados extensos de imagens dermatoscópicas, modelos de aprendizado profundo — especialmente redes neurais convolucionais (CNNs) — podem ser treinados para identificar e classificar com precisão diversas lesões cutâneas. Diversas técnicas mostram resultados fortes na segmentação de lesões cutâneas, incluindo redes totalmente convolucionais (FCNs), CNNs, CNNs profundas (DCNNs), redes residuais totalmente convolucionais (FCRNs) e arquiteturas U-Net. Redes neurais profundas (DNNs) não são facilmente interpretáveis devido à sua arquitetura altamente complexa, tornando seu processo de tomada de decisão difícil de compreender14,15. Avanços recentes na análise de imagens médicas demonstraram que redes neurais convolucionais profundas (CNNs) melhoram significativamente a eficiência nas tarefas de classificação de lesões cutâneas. Diversos estudos sobre conjuntos de dados dermoscópicos como HAM10000 mostraram que arquiteturas baseadas em CNN, incluindo ResNet, DenseNet e EfficientNet, alcançam forte desempenho de classificação multiclasse ao aprender representações hierárquicas de características a partir de imagens de lesões. Abordagens híbridas de fusão de características, onde múltiplas espinhas dorsais CNN são combinadas, melhoraram ainda mais a precisão diagnóstica ao integrar representações profundascomplementares 16. Além disso, estudos atuais investigaram modelos híbridos CNN Transformer em análise de imagens médicas. Modelos com transformador de visão e extratores de características CNN têm comprovado melhores resultados em tarefas de classificação de lesões cutâneas porque conseguem extrair melhor conteúdo local de textura, bem como relações contextuaisglobais 17. Esses designs híbridos também são vistos como de ponta em imagem médica porque possuem uma capacidade equilibrada de aprendizado representativo.

Em outras áreas da medicina, estratégias de fusão de características têm sido amplamente utilizadas fora da dermatologia. Sistemas híbridos baseados em CNN também foram aplicados na análise de imagens histopatológicas para alcançar melhor classificação do câncer de pulmão e cólon, com representações de características aprimoradas e dinâmicas de aprendizagemespacial 16. Igualmente, em oftalmologia, o uso de modelos de aprendizado profundo treinados com representações de características fundidas demonstrou aplicação bem-sucedida no estádio de imagens do fundo do zoo por retinopatia diabética, com melhor robustez e precisão de classificação em uma tarefa de avaliaçãomulticlasse 18. Métodos de fusão multimodais nessas áreas sugerem que representações heterogêneas de características produzem melhor generalização e classificação, especialmente em dados médicosdesequilibrados 19.

Embora essas melhorias tenham sido feitas, as práticas atuais geralmente se limitam a serem multimodais, não integradas, inadequadas para lidar com o desequilíbrio de classes e pouco úteis na tomada de decisões clínicas. Para superar essas questões, este artigo apresenta um modelo explicável de classificação de lesões cutâneas que é consciente da privacidade e integra ambos os métodos de interpretabilidade do modelo. Esses métodos de explicabilidade podem ser usados para explicar as previsões do modelo, mostrando quais características são mais importantes e destacando áreas significativas das imagens dermoscópicas, aumentando a clareza e a confiança nos procedimentos clínicos, melhorando assim a transparência clínica, construindo confiança e apoiando a implementação segura de sistemas de IA na prática clínica. Há um desequilíbrio significativo no conjunto de dados HAM10000, com algumas classes tendo muito menos amostras do que outras. Para superar esse problema, a técnica de superamostragem de minorias sintéticas (também conhecida como balanceamento de classes) é usada para gerar amostras sintéticas para classes sub-representadas. Técnicas de balanceamento de classes equilibram o conjunto de dados, permitindo que o modelo aprenda melhor a partir dos tipos de lesões minoritárias, aumentando a sensibilidade e possibilitando uma previsão mais confiável de classes clinicamente significativas, porém menos frequentes, de câncer de pele.  Características profundas do EfficientNet-B4, DenseNet201 e MobileNetV2 são combinadas com os metadados clínicos para formar uma representação mais informativa de cada lesão cutânea. Essa dupla funcionalidade nos ajuda a extrair os padrões visuais de imagens dermoscópicas e outras informações dos pacientes para uma análise mais aprofundada. As características são então treinadas em diferentes classificadores, incluindo XGBoost, LightGBM e uma Rede Neural Profunda, para aprimorar a capacidade e o poder do modelo de classificação de lesões cutâneas. O conjunto dos modelos é usado com uma técnica de conjunto empilhante para aprimorar o modelo. Este é um modelo composto que aproveita as forças de múltiplos modelos para aprender e se beneficiar das previsões de todos os modelos do conjunto, enquanto mitiga suas limitações.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudo utilizou conjuntos de dados dermoscópicos totalmente anonimizados e disponíveis publicamente e não envolveu participação humana direta; portanto, não era necessária aprovação do comitê ético. A Tabela de Materiais contém detalhes de todos os materiais ou ferramentas utilizados neste estudo. A Tabela 1 inclui detalhes do ambiente de hardware e software, como tipo de processador, memória, sistema operacional e frameworks de software. A Tabela 2 inclui detalhes da precisão por classe, recordação, pontuação F1 e suporte para cada categoria de lesão cutânea.

Fluxo de trabalho geral do framework proposto para classificação multimodal de lesões cutâneas

O plano geral desta pesquisa é criar um esquema preciso e compreensível de multi-classificação das lesões cutâneas. O fluxo de trabalho começa com a coleta de dados e pré-processamento do conjunto de dados HAM10000, depois segue para a extração de recursos usando arquiteturas de deep learning e a inclusão de metadados clínicos. Em seguida, vários classificadores de aprendizado de máquina são treinados e otimizados, e seus resultados são agregados em uma estratégia de conjunto. Por fim, as previsões do modelo são interpretadas usando técnicas de explicabilidade, e a eficácia do modelo é avaliada para uso em suporte à decisão clínica no mundo real.

Para melhorar a precisão preditiva do sistema proposto, é utilizado um pipeline multimodal de aprendizado de máquina, que combina tanto características baseadas em imagem quanto metadados clínicos (como mostrado na Figura 1). O modelo pode somar os resultados visuais das imagens dermoscópicas com as informações relacionadas ao paciente para identificar padrões mais detalhados relacionados a diversas lesões cutâneas. Com essa combinação, o sistema pode fazer previsões melhores, o que acabará acontecendo. Melhorar a qualidade e a utilidade da classificação de lesões cutâneas. Três características convolucionais Deep pré-treinadas são extraídas com a ajuda de redes neurais (EfficientNet-B4, DenseNet201 e MobileNetV2): elas são capazes de capturar uma variedade de padrões complementares de imagens dermoscópicas. Essas arquiteturas aprendem padrões de alto nível em como as lesões de pele se apresentam, como mudanças de cor e textura, e a forma como são construídas. Em seguida, um módulo de fusão de características combina as características profundas com as características clínicas e dados demográficos para criar uma característica multimodal rica. Os dados mesclados são então separados em dados de treinamento, validação e teste para garantir testes adequados do modelo. Em seguida, um módulo de fusão de características é usado para fundir as características profundas com as características clínicas e a demografia, produzindo uma característica multimodal rica. Esses dados são então divididos em dados de treinamento, teste e validação para testar o modelo. Uma estratégia de conjunto é usada para aumentar ainda mais a precisão das previsões. Isso é feito fazendo a média dos resultados de vários modelos e chegando à previsão final usando essas probabilidades médias para aumentar a generalização e minimizar a variância que, de outra forma, teria sido causada por modelos individuais. Além disso, métodos de explicabilidade, como técnicas de interpretabilidade do modelo, também são integrados para explicar melhor como o modelo toma suas decisões. O método de interpretabilidade do modelo fornece interpretações em nível de característica ao quantificar a contribuição das variáveis de entrada, enquanto o método de interpretabilidade do modelo identifica áreas importantes dentro das imagens dermoscópicas em nível de pixel que afetam a previsão. Técnicas de interpretabilidade de modelos oferecem explicações em nível de característica ao quantificar a contribuição de cada variável de entrada, enquanto técnicas de interpretabilidade de modelos destacam regiões importantes no nível de pixel dentro de imagens dermoscópicas que influenciam a previsão. Combinadas, essas técnicas tornam os modelos mais interpretáveis e ajudam os profissionais a entender como o sistema toma as decisões. Como resultado, o pipeline proposto oferece um sistema compreensível e consciente da privacidade, aumentando a transparência e a confiança e possibilitando um diagnóstico de câncer de pele mais confiável em um ambiente real de saúde.

Descrição do conjunto de dados com preparação

Neste artigo, o conjunto de dados HAM10000 (Humano contra Máquina com 10.000 imagens de treinamento) é usado como o principal conjunto de dados para a classificação de lesões cutâneas multi-classe. O conjunto de dados contém mais de 10.000 figuras dermoscópicas coletadas de diversas fontes médicas. Fontes clínicas e populações, tornando-o um dos conjuntos de dados de referência mais amplamente utilizados na análise dermatológica de imagens. Cada imagem no conjunto de dados é acompanhada por metadados clínicos importantes, incluindo identificadores de imagem, rótulos diagnósticos, idade do paciente, sexo e localização anatômica da lesão. O conjunto de dados abrange sete categorias diagnósticas: ceratoses actínicas (akiec), carcinoma basocelular (bcc), ceratose benigna (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesões vasculares (vasc) e melanoma (mel).

Pré-processamento de metadados clínicos

Características auxiliares adicionadas à linha de classificação incluíram metadados clínicos, como idade, sexo e localização da lesão no paciente. Havia valores ausentes ou desconhecidos, que foram tratados por meio de uma abordagem determinística de pré-processamento. No caso da variável idade (numérica), a idade mediana calculada no conjunto de treinamento foi usada para imputar os valores faltantes. A razão pela qual a imputação mediana foi escolhida é que ela é resistente a valores atípicos e dados enviesados, que são prevalentes em dados clínicos. Para sexo e localização da lesão (variáveis categóricas), valores ausentes ou não especificados não foram excluídos; Eles foram designados para uma categoria especial rotulada como 'Desconhecido'. O método mantém todas as amostras disponíveis, e o modelo é livre para determinar se a ausência em si é preditiva. A codificação one-hot foi então aplicada a variáveis categóricas para permitir que fossem compatíveis com modelos de aprendizado de máquina. Todo o pré-processamento, como imputação, codificação, etc., era feito apenas no conjunto de treinamento, e as mesmas transformações eram feitas nos conjuntos de validação e experimento para evitar perda de dados. Não houve amostras excluídas apenas por falta de metadados clínicos, o que garantiu que os dados fossem aproveitados ao máximo e que houvesse consistência metodológica.

figure-protocol-1
Figura 1: Sistema multimodal para classificação de lesões cutâneas. A abordagem do estudo combina características dermoscópicas de imagem com metadados do paciente para classificar lesões cutâneas usando modelos de deep learning em conjunto. A estrutura inclui pré-processamento, extração de características, fusão multimodal e classificação, permitindo desempenho diagnóstico aprimorado e interpretabilidade. Por favor, clique aqui para ver uma versão ampliada desta figura.

O fluxo de trabalho descreve a linha de classificação sugerida, baseada em imagens dermoscópicas e metadados clínicos do conjunto de dados de lesões cutâneas HAM10000. EfficientNet-B4, DenseNet201 e MobileNetV2 são usados para pré-processar e extrair características profundas em imagens. Os metadados clínicos são codificados, e a fusão de características é usada para combinar as características da imagem com os metadados clínicos. Para abordar o problema do desequilíbrio de classes, a técnica de balanceamento de classes é usada no espaço de características multimodal fundido, em vez das imagens brutas ou dos fluxos individuais, onde amostras sintéticas mantêm a combinação tanto das características visuais quanto clínicas e não produzem amostras irreais. As características mesclaras são então treinadas em classificadores como XGBoost, LightGBM e um classificador neural profundo.

figure-protocol-2
Figura 2: Exemplo de imagens dermoscópicas de sete diferentes grupos diagnósticos do conjunto de dados HAM10000. As imagens mostram características visuais típicas usadas para classificação automatizada. (A) Ceratoses actínicas (akiec), demonstrando superfícies rugosas com pigmentação irregular. (B) Carcinoma basocelular (bcc), com formas e vasos sanguíneos irregulares. (C) Lesões benignas semelhantes à ceratose (bkl), apresentando características ceratóticas com superfícies marrom claras. (D) Dermatofibroma (df), com aparência central semelhante a cicatriz e pigmentação. (E) Nevos melanocíticos (nv), toupeiras benignas e relativamente simétricas. (F) Lesões vasculares (vasca), apresentando aparência avermelhada-púrpura devido a vasos sanguíneos. (G) Melanoma (mel), que se apresenta como uma lesão de formato irregular, assimétrica e multipigmentada. Por favor, clique aqui para ver uma versão ampliada desta figura.

Essas imagens dermoscópicas revelam a heterogeneidade visual das lesões cutâneas, que apresentam variações na pigmentação, textura e morfologia da estrutura. Essas variações representam um grande desafio para sistemas automatizados de classificação e ressaltam a importância dos sistemas baseados em deep learning. Técnicas de extração de características sensíveis à revelação de padrões diagnósticos sutis. Após a descrição do conjunto de dados, a Figura 2 ilustra as sete categorias de lesões cutâneas incluídas no conjunto de dados HAM10000, que são comumente estudadas em pesquisas de imagem diagnóstica dermatológica. Essas classes incluem Ceratoses Actinas (akiec), Carcinoma Basocelular (bcc), Ceratose Benigna (bkl), Dermatofibroma (df), Nevi Melanocíticos (nv), Lesões Vasculares (vasc) e Melanoma (mel)21. Todos esses tipos de lesões possuem características visuais únicas, como mostrado na Figura 3, que incluem variação nos padrões de pigmentação, textura da superfície, distribuição de cores e anormalidades ao longo das bordas da lesão. As características visuais de todas essas lesões são diferentes e são caracterizadas por variações nos padrões de pigmentação, textura superficial, distribuição de cores e anormalidades nas bordas das lesões. Essas são características importantes que os dermatologistas terão em mente ao realizar o exame clínico e, portanto, precisam ser bem modeladas por modelos de aprendizado de máquina para alcançar a classificação correta. Embora essas sejam as características diferenciadoras, muitas dessas lesões parecem praticamente idênticas, o que dificulta diferenciá-las ao observar apenas imagens dermoscópicas. A distinção entre certos tipos de lesões é tipicamente extremamente sutil, mas clinicamente pertinente, tornando difícil classificar automaticamente. Por isso, é urgente criar modelos de IA potentes capazes de treinar imagens visuais detalhadas e diferenças sutis nas lesões entre classes de lesões. Essas propriedades não só serão aprimoradas pela descrição adequada, o que resultará na melhoria das habilidades discriminativas do modelo com diferentes tipos de lesões, mas também ajudará a diagnosticar algumas condições perigosas, como melanoma, mais cedo. Por fim, pode aumentar a precisão do diagnóstico, informar os profissionais na tomada de decisões que resultam em melhores resultados para os pacientes e ajudar a tomar decisões melhores.

figure-protocol-3
Figura 3: Distribuição por classes das lesões cutâneas no conjunto de dados HAM10000. A figura mostra a distribuição das sete categorias de lesões consideradas neste estudo: Ceratoses Actinas (akiec), Carcinoma Basocelular (bcc), Lesões Benignas semelhantes à Ceratose (bkl), Dermatofibroma (df), Nevi Melanocíticos (nv), Lesões Vasculares (vasc) e Melanoma (mel). Este gráfico ilustra o desequilíbrio de classes entre as classes de lesões. Por favor, clique aqui para ver uma versão ampliada desta figura.

A análise do conjunto de dados mostra que há um desequilíbrio nas classes dos diferentes tipos de lesões. O tipo mais comum de Nevi Melanocíticos (nv), com aproximadamente 6.705 amostras, é o tipo mais comum, seguido por Melanoma (1.113) e Ceratose Benigna (1.099). Pelo contrário, existem algumas formas de lesões de importância clínica significativamente menos representadas, como o Dermatofibroma (115) e as Lesões Vasculares (142). Essa desproporção representa uma ameaça aos modelos de aprendizado de máquina porque eles podem ter tendência a favorecer as classes majoritárias e são incapazes de detectar lesões incomuns, porém clinicamente significativas. Para lidar com essa questão e melhorar o treinamento do modelo sobre o desempenho do modelo em relação a todas as classes, é necessário pré-processamento avançado. Estratégias são necessárias. Essas técnicas incluem aumento de dados direcionados e balanceamento de classes. Os dados podem ser balanceados usando a técnica (técnica de balanceamento de classes e ajuste de peso de classe), que incentiva o modelo a descobrir tendências substanciais nas classes sub-representadas. Os hiperparâmetros usados para XGBoost e LightGBM foram configurados principalmente para suas configurações padrão, com pequenos ajustes baseados em experimentos preliminares. Para o classificador neural profundo, parâmetros arquitetônicos e de treinamento, como número de camadas, neurônios, taxa de aprendizado, tamanho do lote e número de épocas, foram selecionados empiricamente usando dados de validação. O conjunto completo de hiperparâmetros é fornecido na Tabela 3. Em geral, o número de imagens dermoscópicas utilizadas no presente estudo é de 10.015 ao todo. Isso tem o benefício de fornecer uma vasta coleção de dados para serem treinados e testados, sendo também um critério tedioso, porém recompensador. Avalie a eficácia do sistema proposto de classificação de lesões cutâneas.

Pré-processamento de dados

O pipeline de pré-processamento prepara o conjunto de dados HAM10000 para aprendizado multimodal, padronizando imagens, extraindo características profundas, integrando metadados clínicos e corrigindo o desequilíbrio de classes.

Padronização de Imagens: Todas as imagens dermoscópicas foram redimensionadas para 224 × 224 pixels e normalizadas usando normalização z-score.

figure-protocol-4 (1)

Onde eu represento a imagem bruta, μ denota a média pixelada, e σ é o desvio padrão.

Extração Profunda de Características: Características profundas complementares foram extraídas usando três redes neurais convolucionais pré-treinadas: Efficient-Net B4, DenseNet201, juntamente com MobileNetV2. Cada rede mapeia a imagem normalizada para um vetor de características.

figure-protocol-5(2)

As características extraídas foram concatenadas para formar uma representação unificada:

Fusão F=FEffB4 ||Fdenso ||FMobV2 (3)

(onde || significa concatenação)

Integração de Metadados Clínicos: Atributos clínicos, incluindo idade, sexo, juntamente com localização da lesão, foram limpos, codificados e normalizados usando escala min-max:

figure-protocol-6 (4)

O vetor de metadados processado Mclinical foi fundido com características de imagem para construir a entrada multimodal final:

Fcombinado=FfusãoM clínico (5)

Divisão de Conjuntos de Dados: Uma divisão estratificada foi aplicada para preservar a distribuição de classes

Dtrem,D test=Split(F comibed,0.8) (6)

Tratamento do desequilíbrio de classes: O conjunto de dados HAM10000 apresenta um desequilíbrio severo entre as classes, onde amostras de "nevus" (NV) prevalecem por serem sub-representadas em outros grupos minoritários, como DF com VASC. Para reduzir esse problema, foi empregada a "Técnica de Superamostragem Sintética de Minorias" (técnica de balanceamento de classes). Utilizando: Novas amostras sintéticas foram produzidas como:

xnovo=x i + λ(xzi -x i) (7)

figure-protocol-7

Onde xi é uma amostra de classe minoritária, xzi é um de seus vizinhos mais próximos, e λ é um valor aleatório amostrado de uma distribuição uniforme entre 0 e 1. A amostra sintética, como mostrado na Figura 4, é gerada ao longo do segmento de linha que une x sub i.e xent unindo xi ex zi.

figure-protocol-8
Figura 4: Distribuição de classes no conjunto de dados HAM10000 antes/após aplicar a técnica de balanceamento de classes. (A) Antes do balanceamento de classes, com desequilíbrio entre classes de lesões. (B) Após o balanceamento de classes no espaço combinado de características, onde a representação de todas as classes é igual para evitar viés no processo de treinamento do classificador. Por favor, clique aqui para ver uma versão ampliada desta figura.

Para abordar o problema do desequilíbrio de classes no conjunto de dados HAM10000, aplica-se a Técnica de Superamostragem de Minorias Sintéticas (técnica de balanceamento de classes). A técnica de balanceamento de classes gera amostras sintéticas para as classes minoritárias interpolando entre pontos de dados existentes, o que ajuda a aumentar a representação de categorias de lesões sub-representadas. O resultado final de produzir mais exemplos dessas classes minoritárias é um conjunto de dados mais equilibrado no geral, em relação a todos os sete tipos de lesão. Essa representação equilibrada permitirá que os modelos de classificação aprendam melhor com cada classe e minimizem o viés com as classes maioritárias. Consequentemente, o modelo é mais justo na classificação e sensível, especialmente a lesões cutâneas raras, porém clinicamente importantes.

Estrutura de aprendizagem que preserva a privacidade

O sistema sugerido propõe um sistema multimodal de classificação automatizada de lesões na pele, que seja consciente da privacidade e interpretável. O objetivo final do sistema é aprimorar o desempenho diagnóstico e, ao mesmo tempo, proteger informações sensíveis dos pacientes durante todo o processo de treinamento. A privacidade do paciente é uma necessidade essencial na prática médica, pois as leis de privacidade de dados em saúde e considerações éticas são extremamente importantes nos ambientes de saúde. Assim, o modelo sugerido incluirá um modelo de aprendizagem descentralizada baseado nas ideias da aprendizagem federada. Nesse ambiente descentralizado, o treinamento de modelos é realizado em um grupo de clientes distribuídos, em vez de agregar todos os dados dos pacientes em um local centralizado. Todos os clientes participantes treinam o modelo localmente com seus próprios dados, e os dados brutos dos pacientes não saem do ambiente local. Como alternativa à transferência de prontuários médicos sensíveis, atualizações ou parâmetros de modelos são enviados para um servidor central para serem agregados. Essa abordagem cooperativa de aprendizado permite que as diversas instituições ou fontes de dados contribuam para o treinamento do modelo sem comprometer a privacidade dos dados.

Seja wt(k) os parâmetros do modelo do k-ésimo cliente na t-ésima iteração, e seja nk o tamanho da amostra naquele cliente. A atualização do modelo global é calculada como:

figure-protocol-9 (8)

Essa estratégia de agregação garante que clientes com conjuntos de dados maiores contribuam proporcionalmente mais para o modelo global, ao mesmo tempo em que permite que clientes menores participem do processo de aprendizado. Ao permitir o treinamento colaborativo sem a troca de dados brutos dos pacientes, a estrutura proposta mantém a privacidade enquanto ainda se beneficia do conhecimento distribuído entre os conjuntos de dados.

Configuração experimental federada

Um sistema simulado de aprendizado federado com o conjunto de dados HAM10000 foi projetado para confirmar a eficiência do framework consciente da privacidade oferecido. Os dados foram divididos em três clientes para simular um ambiente multi-institucional real com dados distribuídos de forma não idêntica (não-IID). Cada cliente tem uma mistura variável de classes de lesões, e isso representa uma variação no mundo entre os centros clínicos. O pipeline multimodal idêntico de extração de recursos (EfficientNet-B4, DenseNet201, MobileNet V2 e metadados clínicos) era executado localmente em todos os clientes. No treinamento, os clientes atualizavam seus modelos locais por conta própria, e os parâmetros aprendidos eram trocados apenas com o servidor central para serem agregados pelo algoritmo FedAvg. O equilíbrio entre precisão preditiva e privacidade foi comparado entre o modelo federado e a abordagem centralizada de treinamento para medir o desempenho de cada um. Os resultados dos testes indicados na Figura 5 mostram que o modelo federado pode ter desempenho competitivo, com apenas uma leve diminuição na precisão em relação ao aprendizado centralizado, e uma privacidade de dados muito melhorada.

figure-protocol-10
Figura 5: Distribuição cliente a cliente do conjunto de dados HAM10000. Isso mostra a alocação de dados de lesões cutâneas entre os clientes, demonstrando a diversidade na distribuição dos dados. Isso demonstra a heterogeneidade dos dados entre os clientes, um aspecto crítico da aprendizagem federada. Por favor, clique aqui para ver uma versão ampliada desta figura.

Distribuições heterogêneas (não-IID) dos clientes formados em HAM10000 foram divididas em três grupos para modelar condições clínicas da vida real. A distribuição das diferentes categorias de lesões em cada cliente é diferente, especialmente a classe de nevo (nv), que não é distribuída de forma uniforme entre os clientes. Esse arranjo é indicativo das dificuldades reais do aprendizado federado, nas quais os dados nas instituições não são distribuídos de forma uniforme.

Comparação de desempenho: aprendizagem centralizada vs federada

Para avaliar a eficácia do modelo de aprendizagem federada proposto, foi realizada uma análise comparativa entre estratégias de treinamento centralizadas e federadas utilizando o conjunto de dados HAM10000, conforme mostrado na Figura 6. No ambiente centralizado, todas as amostras de dados eram agregadas em um único pool de treinamento. O modelo centralizado de melhor desempenho, o empilhado, alcançou uma precisão geral de 96%. Em contraste, o cenário federado distribuiu o conjunto de dados entre três clientes com dados não idênticos distribuídos (não-IID), onde cada cliente treinou o modelo localmente e compartilhou apenas parâmetros usando FedAvg. O modelo federado alcançou uma precisão geral de aproximadamente 94%, correspondendo a uma diferença de desempenho de 2% em comparação com a abordagem centralizada, conforme mostrado na Tabela 4. Essa diminuição marginal é esperada devido à otimização descentralizada e à distribuição heterogênea dos dados entre os clientes.

Mesmo com essa pequena mudança, o modelo federado ainda teve bom desempenho em prever. No treinamento centralizado, o comportamento por turma mostra que a maioria das classes, como nevus (nv) (escórrea F1 = 1,00), permanece estável, enquanto classes minoritárias, como dermatofibroma (df) (pontuação F1 ≈ 0,65–0,66), são mais sensíveis ao desequilíbrio de distribuição, o que pode afetar ainda mais o desempenho federado. Notavelmente, a estrutura federada minimiza as chances de expor informações sensíveis dos pacientes, pois não exige o compartilhamento de dados médicos brutos entre os clientes.

figure-protocol-11
Figura 6: Comparação de aprendizagem federada vs. aprendizagem centralizada. Esta figura compara paradigmas de aprendizagem usando métricas de desempenho como precisão, exatidão, recordação e pontuação F1. Isso demonstra a capacidade da aprendizagem federada de alcançar desempenho comparável ao da abordagem tradicional de aprendizagem, preservando a privacidade. Por favor, clique aqui para ver uma versão ampliada desta figura.

Os resultados da Tabela 4 indicam que o modelo de aprendizagem federada é capaz de ser competitivo, e a queda na precisão é apenas de aproximadamente 2% em comparação com o modelo centralizado. Essa pequena redução pode ser explicada pela otimização descentralizada e pela distribuição de dados não IID. No entanto, o modelo federado tem uma enorme vantagem no que diz respeito à proteção da privacidade, pois as informações sensíveis dos pacientes não são compartilhadas entre os clientes. Para fornecer uma comparação justa entre o modelo federado e o modelo centralizado de conjunto empilhado, o modelo federado foi testado com a mesma arquitetura e hiperparâmetros. O aspecto de preservação da privacidade discutido neste estudo é conceitual e destinado a destacar a potencial integração de técnicas como a aprendizagem federada em trabalhos futuros. Nenhuma validação experimental dos mecanismos de preservação da privacidade é realizada na implementação atual.

Fusão de características multimodal

O diagnóstico de lesões cutâneas geralmente inclui observação cutânea e histórico clínico. Dermatologistas, na maioria dos casos, não consideram apenas as imagens dermoscópicas, colocando-as em relação às informações do paciente (idade, sexo e localização da lesão) para fazer seus julgamentos diagnósticos. O sistema proposto baseia-se na inspiração desse fluxo de trabalho clínico e incorpora uma abordagem multimodal para o aprendizado que combine dados baseados em imagens e clínicos. CNNs são treinadas com características profundas de imagem dermoscópica pré-existentes. Essas redes reconhecem designs visuais intrincados, incluindo mudanças de cor, formas de lesões, anomalias estruturais e características de textura. No entanto, as características das imagens podem não ser suficientes para registrar a situação clínica de uma lesão. Metadados clínicos relacionados a cada imagem também são incluídos no aprendizado. Será criado um módulo de fusão de características que integrará características de imagem profunda com atributos clínicos processados e informações demográficas. Essa representação composta constitui uma representação integrada multimodal de características que consiste tanto em informações visuais quanto contextuais de cada lesão. O modelo pode integrar várias fontes de dados para obter padrões complementares que aprimoram a capacidade geral de classificação. A representação multimodal permite que o sistema diferencie de forma mais eficaz lesões visualmente semelhantes, bem como considere os indicadores clínicos. O modelo é mais clinicamente significativo e eficaz, pois é uma aproximação mais próxima de como os dermatologistas estudam lesões na prática clínica.

Aprendizado em conjunto empilhado
A estrutura proposta utiliza uma estratégia de aprendizado em conjunto empilhado para aprimorar ainda mais a capacidade preditiva do sistema. Aprendizagem em conjunto é um método composto de previsão que utiliza dois ou mais modelos preditivos para potencializar a generalização e minimizar os erros de previsão que podem ocorrer com modelos únicos. Múltiplos aprendizes base são treinados de forma independente na representação multimodal de características, em vez de usar um único classificador. Todos os aprendizes base fornecem uma estimativa de quão provável é que uma amostra específica pertença a uma determinada classe de lesão. Essas previsões de probabilidade são então agregadas em um nível meta. Um peso é atribuído a cada aprendiz base para mostrar sua importância relativa para a previsão final. Uma função de ativação softmax é usada para calcular a saída agregada e gerar probabilidades de classe normalizadas. O método do conjunto empilhado traz vários benefícios. Primeiro, minimiza a variância da previsão devido à combinação de vários modelos e, assim, melhora o desempenho da generalização. Segundo, isso aumenta a força, já que vários modelos descrevem diferentes tendências nos dados. Terceiro, a aprendizagem em conjunto aprimora a classificação de classes de lesões minoritárias, especialmente em dados médicos, onde certas condições de interesse clínico não são tão prevalentes.

Integração de inteligência artificial explicável

Sistemas de IA médica também devem oferecer explicações claras de suas escolhas, mesmo que alta precisão nas previsões seja fundamental. Para depositar confiança nos sistemas de IA e serem eficazes em sua prática, os profissionais devem ser capazes de compreender como um modelo se encaixa no diagnóstico que ele produz. Para atender a essa necessidade, o framework proposto incorpora métodos explicáveis de inteligência artificial (XAI), conforme mostrado na Figura 7.

figure-protocol-12
Figura 7: Matrizes de confusão de diferentes modelos de classificação para classificação de lesões cutâneas multiclasse. (A) XGBoost, (B) LightGBM, (C) Classificador Neural Profundo e (D) modelo de Conjunto Empilhado. Cada matriz de confusão mostra a relação entre a verdadeira classe (linhas) e a classe prevista (colunas) para todos os sete tipos de lesões cutâneas: akiec, bcc, bkl, df, mel, nv e vasc. Os modelos XGBoost e LightGBM têm bom desempenho para as classes nv e bkl, embora haja alguma confusão entre mel e nv. O Classificador Neural Profundo melhora a classificação de bkl e df e diminui a confusão fora da diagonal. O modelo do Conjunto Empilhado apresenta a maior consistência de classificação, com a diagonal se tornando cada vez mais dominante. Por favor, clique aqui para ver uma versão ampliada desta figura.

O sistema inclui duas abordagens populares de explicabilidade (técnica de interpretabilidade do modelo (SHapley Additives Explanations) e técnica de interpretabilidade do modelo (Local Interpretable Model-agnostic Explanations)) para dar uma visão do que o modelo prevê. O método de interpretabilidade do modelo explica características no nível das características medindo o quanto cada característica de entrada contribuiu para a previsão geral. Ela auxilia na determinação de quais variáveis clínicas/qualidades visuais têm maior impacto no resultado da classificação. Isso permite que pesquisadores e profissionais de saúde vejam o comportamento geral do modelo em todo o conjunto de dados. A técnica de interpretabilidade do modelo, por outro lado, lida com explicações locais de previsões individuais. Ela enfatiza as áreas da imagem dermoscópica que têm maior impacto na decisão do modelo. Essas explicações visuais em nível de pixel permitem que os clínicos inspecionem visualmente as áreas da lesão que informaram a classificação. O framework proposto oferece interpretabilidade global e local; Isso é alcançado integrando a técnica de interpretabilidade do modelo. O mecanismo de dupla explicação aumenta a transparência e permite que os profissionais avaliem se o modelo está direcionando padrões medicamente significativos.

Potencial de suporte à decisão clínica

Aprendizado que preserva a privacidade, fusão de características multimodais, modelagem em conjunto e IA explicável são componentes-chave de um sistema integrado e robusto para classificação automática de lesões cutâneas. Idealmente, o sistema não deve apenas ter alto poder prognóstico, mas também ser transparente e seguro, que são dois fatores-chave nos sistemas médicos, como mostrado na Figura 8.

figure-protocol-13
Figura 8: Curvas das características operacionais do receptor (ROC) para o modelo de conjunto empilhado. (A–C) Esta mostra as curvas ROC para os sete tipos de lesão cutânea, com taxa de verdadeiro positivo (sensibilidade) e taxa de falso positivo (1-especificidade). A área sob a curva (AUC) representa o desempenho do modelo de conjunto empilhado na discriminação entre as classes. Por favor, clique aqui para ver uma versão ampliada desta figura.

Esse sistema oferece previsões explicáveis e proteção à privacidade. Como resultado, é um sistema benéfico para outros sistemas diagnósticos dermatológicos. Esse sistema permite que profissionais de saúde/dermatologistas avaliem a suspeita de lesões e melhorem a precisão diagnóstica e, como resultado, auxiliem profissionais/dermatologistas a diagnosticar pacientes em estágio inicial quando eles podem ter uma doença mais grave (por exemplo, melanoma). Em essência, como mostrado na Figura 9, esse sistema busca trazer para a prática as tecnologias de uso de sistemas de inteligência artificial (IA) de alta tecnologia e implementação de aplicações no mundo real, para ajudar os dermatologistas a diagnosticar pacientes com mais precisão e confiança, garantindo a privacidade e segurança dos pacientes e seu conforto.

figure-protocol-14
Figura 9: Resultados de explicabilidade usando técnicas de interpretabilidade de modelos para classificação de lesões cutâneas multiclasse. (A) Gráfico SHAP mostrando contribuições de características influenciando previsões de lesões benignas e malignas. (B) Explicação LIME para a previsão do BCC, ilustrando as características que contribuem positiva e negativamente para o resultado da classificação. (C) Explicação LIME para a previsão do akiec, destacando as características mais influentes envolvidas no processo de tomada de decisão do modelo. Essas visualizações de interpretabilidade demonstram as regiões e características extraídas que afetam significativamente as previsões do modelo, melhorando a transparência e a compreensão do processo de classificação na avaliação de lesões cutâneas. Por favor, clique aqui para ver uma versão ampliada desta figura.

Estratégia de avaliação

Para evitar viés de amostragem e manter a distribuição original de classes em todas as categorias de lesões cutâneas, o conjunto de dados foi dividido em uma divisão de 80:20 entre trens e testes. O subconjunto de treinamento foi então dividido na razão 90:10 train: validar, ajustar os hiperparâmetros e otimizar o modelo. O conjunto de teste não foi utilizado no processo de treinamento em nenhuma etapa e foi aplicado apenas ao final do processo como teste final para evitar vazamento de dados e garantir uma avaliação de desempenho imparcial. Todos os modelos foram pré-processados e treinados em configurações iguais, os dados foram particionados e aumentados da mesma forma, e os protocolos de avaliação foram aplicados e seguidos da mesma forma, o que permitiu comparações justas e reprodutíveis. Os modelos foram avaliados minuciosamente com base em precisão, exatião, recordação, pontuação F1 e AUC, com uma análise detalhada dos resultados por classe para determinar sua robustez tanto para classes principais quanto para minorias de lesões. Essa ferramenta padronizada de validação ajudaria a aumentar a confiabilidade, transparência e generalização da abordagem proposta, além de superar possíveis inconsistências nos relatórios de desempenho.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Quatro métodos de classificação (XGBoost, LightGBM, um Classificador Neural Profundo e um modelo de conjunto empilhado) foram avaliados para classificação de lesões cutâneas em múltiplas classes. Os modelos alcançaram precisões gerais de 92%, 90%, 94% e 96%, respectivamente, demonstrando que c

Desempenho por classe

Uma avaliação detalhada por turma, incluindo precisão, recordação e pontuação F1 para cada categoria de lesão, é fornecida. Para a classe akiec (suporte = 65), o conjunto empilhado alcançou precisão de 0,72, recall de 0,73 e pontuação F1 de 0,72, ligeiramente melhor que XGBoost (F1 = 0,70), LightGBM (F1 = 0,68) e o classificador neural profundo (F1 = 0,71). Para bcc (suporte = 103), o conjunto empilhado obteve precisão = 0,87, recordação = 0,84 e F1-score = 0,85, comparável ao XGBoost (F1 = 0,83) e LightGBM (F1 = 0,81), e um pouco maior que o classificador neural profundo (F1 = 0,84). Para bkl (suporte = 220), o conjunto empilhado alcançou precisão = 0,93, recordação = 0,85 e F1-score = 0,89, superando XGBoost (F1 = 0,87), LightGBM (F1 = 0,86) e o classificador neural profundo (F1 = 0,88). Para df (suporte = 23), o desempenho permaneceu relativamente baixo em todos os modelos. O conjunto empilhado relatou precisão = 0,67, recordação = 0,66 e F1-score = 0,66, semelhante ao XGBoost (F1 = 0,65), LightGBM (F1 = 0,63) e ao classificador neural profundo (F1 = 0,65).

Para mel (suporte = 223), o conjunto empilhado atingiu precisão = 0,66, recordação = 0,97 e F1-score = 0,78. O Classificador Neural Profundo também apresenta alta memória (0,96) para melanoma, mas precisão relativamente menor (~0,66), indicando um número maior de falsos positivos. Isso destaca que, embora a sensibilidade para a detecção de melanoma seja alta em todos os modelos, a precisão permanece comparativamente menor. Para a classe nv (suporte = 1341), todos os modelos demonstraram 100% de desempenho na classificação, com precisão, recordação e pontuações F1 iguais a 1,00, destacando o desempenho consistentemente alto na classe maioritária. Para vasc (suporte = 28), o conjunto empilhado alcançou precisão = 1,00, recordação = 0,93 e F1-score = 0,96, comparável ao classificador neural profundo (F1 = 0,96) e ligeiramente superior ao XGBoost (F1 = 0,95) e LightGBM (F1 = 0,94).

Comparação de modelos

O modelo de conjunto empilhado teve desempenho semelhante ou melhor em todas as métricas em comparação com modelos individuais. Importante destacar que o aumento na detecção de melanoma se reflete em uma recordação maior (0,97), sugerindo uma melhora na sensibilidade do modelo a casos importantes. A diminuição do desempenho das classes minoritárias (df, 23 amostras; akiec, 65 amostras) indica a influência da distribuição de classes no desempenho do modelo. Crucialmente, a precisão geral é calculada em todas as amostras e afetada pelo desequilíbrio de classes, com a classe nv (suporte = 1341) predominando. Assim, flutuações na precisão ou na recordação para classes minoritárias não explicam os valores de precisão relatados.

Comparação com métodos existentes

Para comparar o desempenho do sistema proposto, apresentamos uma comparação com métodos anteriores nas Tabelas 5 e 6. A estrutura proposta de conjunto empilhado tem desempenho equivalente às abordagens previamente reportadas, com uma precisão de 96%. Além disso, o modelo proposto também oferece integração e explicabilidade de recursos multimodais, que nem sempre são consideradas em outras abordagens. Os valores de desempenho reportados são baseados nos resultados apresentados nos artigos originais e podem diferir devido a diferentes divisões de conjuntos de dados e métodos de avaliação.

Observação chave

Os 94% correspondem ao desempenho geral de todas as classes, influenciados pela classe majoritária (nv, suporte = 1341). Portanto, o desempenho das classes minoritárias (por exemplo, precisão df, mel) não significa que isso seja inconsistente com a precisão geral relatada. O conjunto empilhado alcançou a maior precisão (96%) com bom desempenho nas classes. O aumento da precisão das diferentes classes (por exemplo, a lembrança do melanoma) sugere ainda mais que o uso de abordagens multimodelagem melhora o desempenho preditivo da classificação de lesões cutâneas multiclasse.

Isso é ainda mais testado comparando a abordagem proposta com os modelos de última geração do conjunto de dados ISIC 2019. A análise do desempenho das arquiteturas de deep learning amplamente utilizadas, como ResNet50, EfficientNet-B0, DenseNet121 e o método proposto de conjunto empilhado, foi realizada com os modelos base. Cada modelo foi testado com as mesmas condições experimentais, tornando-os comparáveis entre si. Os resultados, mostrados na Tabela 6, mostram que o modelo proposto supera os modelos existentes em todas as métricas de avaliação. O modelo de conjunto empilhado proposto alcança uma precisão maior de 96% e um valor AUC de 0,970 em comparação com outros modelos tradicionais de aprendizado de máquina e modelos de deep learning, conforme visto na Tabela 6. Quanto à captura de várias representações de características, modelos como EfficientNet-B0 e DenseNet121 apresentam forte desempenho de linha de base quando recebem uma imagem, mas são inadequados para lidar com tais tarefas sozinhos. Por outro lado, o método de conjunto é aplicado com sucesso para combinar vários modelos e garantir melhor generalização e robustez. Além disso, o método proposto é consistentemente melhor em termos de precisão, recordação e pontuação F1, sugerindo que é robusto em várias classes com uma capacidade promissora de ser usado na prática clínica real. Para facilitar a reprodutibilidade, transparência e comparação confiável de todos os modelos, os experimentos foram realizados seguindo um protocolo padrão, com uma variedade de critérios de desempenho e as mesmas condições de validação.

DISPONIBILIDADE DE DADOS:

O HAM10000 conjunto de dados de lesões cutâneas utilizado neste estudo está disponível publicamente pelo Kaggle at https://www.kaggle.com/datasets/kmader/skin-cancer-mnist-ham10000. O código-fonte e os arquivos de implementação usados para pré-processamento de dados, treinamento de modelos, avaliação e análise foram fornecidos como material suplementar junto com a submissão do manuscrito.

CONFIGURAÇÃO DO AMBIENTE PARA DESENVOLVIMENTO DE MODELOS
ComponenteEspecificação
Ambiente de ComputaçãoPesquise no Google Colab (Nível Livre)
CPUCPU de 2 núcleos @ 2,20 GHz
GPUNVIDIA T4 / P100
RAM12 GB
Sistema OperacionalUbuntu 22.04
Versão em PythonPython 3.10
Modelos de Aprendizado ProfundoEfficientNet B4, DenseNet201, MobileNetV2
ClassificadoresXGBoost, LightGBM, DNC, Conjunto Empilhado
Bibliotecas PrincipaisTensorFlow 2.12, Keras 2.12, NumPy, Pandas
Ferramentas de ExplicabilidadePEDAÇO, CAL
Balanceamento de DadosSMOTE

Tabela 1: Configuração do sistema. É usado para desenvolvimento e avaliação de modelos. Inclui detalhes do ambiente de hardware e software, como tipo de processador, memória, sistema operacional e frameworks de software.

RELATÓRIOS DETALHADOS DE CLASSIFICAÇÃO PARA A PREVISÃO DE LESÕES CUTÂNEAS MULTICLASSE
ClassePrecisãoRecallPlacar da F1Apoio
XGBoost (Precisão: 92%)
Akiec0.700.710.7065
BCC0.850.820.83103
BKL0.910.830.87220
df0.650.650.6523
mel0.630.950.76223
nv1.001.001.001341
Vasc1.000.910.9528
LightGBM (Precisão: 90%)
Akiec0.680.690.6865
BCC0.830.800.81103
BKL0.900.820.86220
df0.630.630.6323
mel0.620.940.75223
nv1.001.001.001341
Vasc0.990.900.9428
Classificador Neural Profundo (Precisão: 94%)
Akiec0.950.90.9265
BCC0.90.940.92103
BKL0.970.920.94220
df0.990.960.9723
mel0.990.90.94223
nv0.140.860.241341
Vasc0.100.860.1828
Conjunto Empilhado (Precisão: 96%)
Akiec0.720.730.7265
BCC0.870.840.85103
BKL0.930.850.89220
df0.670.660.6623
mel0.660.970.78223
nv1.001.001.001341
Vasc1.000.930.9628

Tabela 2: Métricas detalhadas de desempenho de classificação para a previsão de lesões cutâneas multiclasse em todos os modelos. Esta tabela apresenta a precisão por classe, recordação, pontuação F1 e suporte para cada categoria de lesão cutânea.

ModeloHiperparâmetroValor
XGBoostTaxa de AprendizadoPadrão (0.3)
Número de árvores (n_estimators)100
Profundidade máxima6
Subamostra1
Colsample_bytree1
Objetivomulti:softmax
Métrica de Avaliaçãomlogloss
LightGBMTaxa de AprendizadoPadrão (0.1)
Número de árvores (n_estimators)100
Profundidade máxima-1
Número de Folhas31
Fração de Características1
Fração de Saco1
ObjetivoMulticlasse
Métricamulti_logloss
Classificador Neural ProfundoNúmero de camadas3 Camadas Densas
Neurônios por camada256, 128, 64
Função de AtivaçãoReLU
Ativação de SaídaSoftmax
OtimizadorAdam
Taxa de Aprendizado0.001
Tamanho do lote32
Número de Épocas30
Desistência0.5
Função de PerdaCruzamento categórico

Tabela 3: Configurações de hiperparâmetros. Configurações de hiperparâmetros usadas para treinar os modelos, incluindo taxa de aprendizado, tamanho do lote, número de épocas e configurações de otimizadores.

Modelo Centralizado vs Federado
Estratégia de TreinamentoCentralizado (Conjunto Empilhado)Modelo FederadoDiferença (Δ)
Precisão (%)96942

Tabela 4: Comparação de aprendizagem centralizada vs. federada. Comparação entre abordagens de aprendizagem centralizada e federada em termos de desempenho, privacidade e características computacionais.

Ref. ArtigoMétodoTipo de modeloAnoDesempenho RelatadoContribuição Chave
[2]Estrutura CNN para Detecção de Câncer de PeleCNN2020Alta precisão (~90%+)Classificação inicial baseada na CNN
[4]Diagnóstico de Melanoma usando Deep LearningCNN2021Melhoria no desempenho na classificaçãoAnálise de imagem dermoscópica
[8]CNN otimizada com CheckpointsCNN2023Precisão aprimorada (~92–94%)Estratégia de otimização de modelos
[9]Deep Learning + XAI FrameworkCNN + Explicabilidade2023Melhor interpretabilidadeIntegração XAI
[10]Recursos combinados da CNNCNN2023Desempenho competitivo (~90%+)Combinação de recursos
[18]SkinSage XAICNN + XAI2023Confiança e interpretabilidade aprimoradasSistema de IA explicável
Esta ObraConjunto Empilhado + Multimodal + XAIConjunto96%Conjunto + interpretabilidade + consciência de privacidade

Tabela 5: Comparação com métodos existentes. Comparação de desempenho do método proposto com métodos de última geração existentes usando métricas padrão de avaliação.

Modelos de última geração
ModeloConjunto de dadosPrecisãoPrecisãoRecallPontuação F1AUC
ResNet50ISIC 20190.8420.8350.8280.8310.912
EfficientNet-B0ISIC 20190.8740.8680.8610.8640.935
DenseNet121ISIC 20190.8610.8540.8480.8510.926
XGBoostISIC 20190.920.9050.8920.8980.948
LightGBMISIC 20190.90.8890.880.8840.94
Classificador Neural ProfundoISIC 20190.940.9050.890.8920.95
Conjunto Empilhado PropostoISIC 20190.960.940.930.9350.97

Tabela 6: Comparação com modelos de última geração. Avaliação comparativa do modelo de conjunto empilhado com outras arquiteturas de ponta no conjunto de dados ISIC 2019. A precisão, precisão, recordação, F1-Score e AUC são usados para medir o desempenho. O modelo proposto supera outros modelos, demonstrando assim sua eficácia na classificação de lesões cutâneas em múltiplas classes.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O protocolo atual descreve um pipeline reprodutível para criar uma estrutura multimodal interpretável, sensível à privacidade e que classifique automaticamente lesões de pele. O protocolo segue um padrão sistemático de aprimoramento do desempenho diagnóstico por meio da transparência do modelo, combinando análise dermoscópica de imagens com metadados clínicos e métodos de aprendizado de máquina interpretáveis. O conjunto de dados de lesões cutâneas HAM10000 é público e permite a avaliação padronizada, facilitando a reprodutibilidade de pesquisas futuras no campo da pesquisa dermatológicade imagem 16. A etapa de pré-processamento e normalização da imagem é uma das etapas mais importantes do protocolo, pois garante que as imagens dermoscópicas sejam padronizadas antes da extração de características e do treinamento de um modelo. Artefatos que podem estar presentes em imagens dermoscópicas incluem iluminação desigual, bloqueio de cabelos ou ruído ao fundo, que podem influenciar o desempenho dos modelos. Redimensionar as imagens para resolução fixa e normalização pode reduzir essas diferenças, e o modelo pode então ser focado em lesões de interesse sob uma perspectiva clínica, como padrões de pigmentação, bordas irregulares e assimetria. Sistemas dermatológicos baseados em aprendizado profundo requerem pré-processamento adequado para produzir desempenho confiável, como já foi demonstrado em pesquisas anteriores sobre classificação automatizada de câncerde pele 2.

O fluxo de trabalho profundo de extração de características baseado em múltiplas arquiteturas de redes neurais convolucionais (CNN) também é uma parte importante desse processo. Neste procedimento, EfficientNet-B4, DenseNet201 e MobileNetV2 são empregados para aprender características complementares em imagens dermoscópicas. Essas arquiteturas apresentam vantagens diferentes em termos de recursos e custos computacionais. O protocolo proposto pode extrair características usando múltiplos modelos e então fundi-las para obter padrões globais de lesões, bem como características específicas das morfologias da lesão, o que pode ser útil na identificação de lesões benignas e malignas. Há também uma etapa de fusão de características multimodal. O diagnóstico clínico em dermatologia frequentemente compreende informações visuais e contextuais clínicas (idade e gênero do paciente, e local da lesão). A arquitetura funde características dermoscópicas da imagem com informações contextuais para adicionar um contexto diagnóstico aos modelos puramente baseados em imagem. É uma abordagem multimodal mais prática, e fortalece o sistema de classificação.

O protocolo também incorpora técnicas de inteligência artificial explicável (XAI), particularmente a técnica de interpretabilidade do modelo, para explicar previsões dos modelos de classificação. A explicabilidade é essencial para sistemas de IA médica, pois os profissionais precisam estar cientes da lógica por trás das previsões automatizadas para incluí-las em seus processos diagnósticos. Técnicas de interpretabilidade do modelo geram importância global das características ao medir o impacto de cada característica nas previsões do modelo, enquanto as técnicas de interpretabilidade do modelo fornecem explicações locais ao mostrar as regiões da imagem que contribuem para as previsões do modelo. Essas ferramentas de interpretabilidade ajudam a verificar se o modelo foca em estruturas clinicamente relevantes em vez de correlações espúrias, melhorando assim a confiança e a transparência nos sistemas diagnósticos assistidos porIA.

Existem várias variações no protocolo que podem ser aplicadas, dependendo do conjunto de dados utilizado ou do ambiente computacional. Um problema típico com dados dermatológicos é o desequilíbrio de classes, onde o número de amostras por categoria de lesão varia consideravelmente. O conjunto de dados HAM10000 possui uma proporção muito maior de nevos benignos do que outras categorias de lesões. Esse desequilíbrio pode ser mitigado por meio de técnicas de superamostragem como a Técnica de Superamostragem de Minorias Sintéticas (SMOTE), que pode gerar dados de minorias sintéticas para categorias de lesões raras. Outras estratégias, como aumento de dados, ponderação de classes ou perda focal, também podem ajudar a aumentar a precisão dos modelos em tipos de lesões menos comuns.

Embora o framework proposto ofereça vários benefícios, ele apresenta algumas limitações. O modelo é treinado com o conjunto de dados HAM10000, que pode não cobrir todos os possíveis cenários de imagem, fenótipos da pele ou grupos étnicos encontrados em dermatologia. Portanto, é importante validar o framework usando conjuntos de dados externos para avaliar seu desempenho de generalização. Além disso, incorporar múltiplos modelos de aprendizado profundo e aprendizado em conjunto aumenta a pegada computacional do modelo e pode ser desafiador em ambientes clínicos com recursos limitados.

A estrutura, como apresentada, oferece vários avanços em relação aos métodos convencionais de aprendizado profundo que utilizam apenas imagens. A integração multimodal de dados fornece informações mais ricas, e o aprendizado em conjunto aumenta a robustez do modelo ao agregar previsões de diversos classificadores. Além disso, a aplicação de técnicas de IA explicáveis oferece interpretabilidade na tomada de decisão, o que é uma preocupação para modelos de deep learning na área médica. Os insights de técnicas experimentais de dermatologia informam esse protocolo ao enfatizar fluxos de trabalho de imagem e análise reprodutíveis essenciais para a pesquisa biológica. Abordagens avançadas de imagem, incluindo modelos tridimensionais da pele e procedimentos de imagem dermoscópica, proporcionam uma compreensão mais profunda da estrutura da pele e dos mecanismos de doenças, apoiando assim o projeto e a melhoria de ferramentas diagnósticascomputacionais 21,22.

A abordagem descrita neste protocolo pode ser aplicada de várias maneiras em pesquisas dermatológicas e ambientes clínicos. Essa abordagem pode ajudar a desenvolver sistemas de diagnóstico assistidos por computador para a detecção precoce de melanoma e outras condições de pele, ajudar médicos a navegar por grandes bancos de dados de imagens cutâneas e ser usada como parte de sistemas de teledermatologia, permitindo que médicos consultem dermatologistas remotamente. Além disso, a explicabilidade e as características de preservação da privacidade do sistema permitem que ele seja utilizado em um ambiente de pesquisa em IA médica multi-institucional, onde múltiplas instituições compartilham dados enquanto garantem privacidade. Pesquisas futuras podem incluir a incorporação de conjuntos de dados maiores e multi-institucionais, a adição de recursos clínicos adicionais e a exploração de outras técnicas que preservam a privacidade, como a aprendizagem federada, que é mencionada aqui como uma extensão conceitual. Além disso, a ausência de um estudo de ablação comparando modelos multimodais com modelos apenas de imagem e apenas metadados é uma limitação e será abordada em trabalhos futuros para avaliar o papel de cada fonte de dados.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Os autores não têm nada a revelar. Não temos conflitos de interesse. Os autores afirmam que ferramentas de inteligência artificial eram usadas exclusivamente para edição e formatação de idiomas. Todo o conteúdo científico, análise e interpretações foram desenvolvidos e verificados pelos autores.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Os autores agradecem à MVN University, Palwal, por fornecer orientação acadêmica e apoio à pesquisa. Os autores também reconhecem o conjunto de dados de lesões HAM10000 cutâneas disponível publicamente, que foi utilizado para a avaliação experimental deste estudo.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Arquitetura CNN DenseNet201IBMhttps://arxiv.org/abs/1608.06993Modelo de aprendizado profundo para classificação de imagens
Arquitetura CNN EfficientNet-B4Googlehttps://arxiv.org/abs/1905.11946Modelo de aprendizado profundo para classificação de imagens
Plataforma de Colaboratórios do GoogleGooglehttps://colab.research.google.comAmbiente computacional baseado em nuvem
HAM10000 Conjunto de Dados de Lesões CutâneasHarvard Dataversehttps://doi.org/10.7910/DVN/DBW86TConjunto de dados de imagens dermoscópicas
API de Aprendizado Profundo KerasGoogleVersão 2.xAPI de rede neural
Biblioteca de Explicabilidade LIMEProjeto LIMEVersão 0.xTécnica de interpretabilidade do modelo
Arquitetura CNN MobileNetV2Googlehttps://arxiv.org/abs/1801.04381Modelo de aprendizado profundo para classificação de imagens
Biblioteca de Visualização MatplotlibEquipe de Desenvolvimento MatplotlibVersão 3.xUsado para gerar gráficos e visualização de desempenho
NVIDIA GPUNVIDIASérie RTXHardware computacional para treinamento de modelos
Biblioteca de Computação Numérica NumPyDesenvolvedores NumPyVersão 1.xSoftware de análise de dados
Biblioteca de Processamento de Imagens OpenCVFundação OpenCVVersão 4.xBiblioteca de processamento de imagens
Biblioteca de Análise de Dados PandasEquipe de Desenvolvimento PandasVersão 1.xSoftware de análise de dados
Ambiente de Programação em PythonFundação de Software PythonVersão 3.9+Software de análise de dados
Biblioteca de Explicabilidade SHAPProjeto SHAPVersão 0.xTécnica de interpretabilidade do modelo
Técnica de Superamostragem SMOTEProjeto de aprendizagem desequilibradaVersão 0.xTécnica de balanceamento de classes para lidar com conjuntos de dados desequilibrados
Biblioteca de Aprendizado de Máquina Scikit-learnProjeto scikit-learnVersão 1.xBiblioteca de aprendizado de máquina
TensorFlow Deep Learning FrameworkGoogleVersão 2.xEstrutura de aprendizado profundo

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Skin Lesion ClassificationMultimodal EnsembleExplainable AIPrivacy PreservingDeep Learning ModelsClass BalancingEfficientNet B4Clinical MetadataXGBoost ClassifierModel Interpretability

Related Articles