Um Conjunto Multimodal Explicável que Preserva a Privacidade para Classificação de Lesões de Pele

Amrita Koul; N. P. Singh

doi:10.3791/71472

Research Article

Um Conjunto Multimodal Explicável que Preserva a Privacidade para Classificação de Lesões de Pele

DOI:

10.3791/71472

⸱

June 12th, 2026

Amrita Koul¹ , N. P. Singh¹

¹Department of Computer Science and Engineering, School of Engineering and Technology, MVN University, Palwal

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O trabalho proposto visa desenvolver e avaliar um arranjo multimodal de tecido multimodal explicável e preservador da privacidade para classificação precisa de lesões cutâneas, integrando recursos de aprendizado profundo, metadados clínicos e técnicas de IA explicáveis para melhorar a precisão diagnóstica, a transparência e o suporte confiável à decisão clínica para a detecção precoce do câncer de pele.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Entre as doenças dermatológicas, o câncer de pele está entre os mais fatais. O diagnóstico precoce e preciso é importante para melhorar o prognóstico do paciente. No entanto, os métodos diagnósticos tradicionais baseados em IA enfrentam vários desafios, incluindo preocupações com privacidade, interpretabilidade limitada e um desequilíbrio severo de classes em conjuntos de dados de lesões cutâneas multiclasse. Para superar esses desafios, o artigo proposto propõe um modelo multimodal de classificação de lesões cutâneas com consciência da privacidade e explicável, que combina modelos complexos de aprendizado profundo e uma abordagem de modelagem em conjunto com métodos de inteligência artificial explicáveis. A avaliação experimental é realizada utilizando dados públicos de referência HAM10000 sobre classificação de lesões cutâneas multiclasse, acessíveis por meio do Kaggle Hub, distribuídos em sete classes clinicamente significativas de lesões (akiec, bcc, bkl, df, mel, nv, vasc). Para equilibrar os dados, uma técnica de balanceamento de classes é usada para impulsionar as classes minoritárias. O EfficientNet B4, DenseNet201 e MobileNetv2 são usados para extrair representações profundas de características, depois combinadas com metadados clínicos salientes para criar um espaço robusto de características multimodal. Essas características multimodais são usadas para treinar XGBoost, LightGBM, Deep Neural Classifier (DNC), que resultaram em precisões de classificação de 92%, 90% e 94%, respectivamente. Uma estratégia de conjunto empilhado é aplicada para combinar as saídas do XGBoost, LightGBM e Deep Neural Classifier (DNC), o que leva a uma melhoria de precisão de 96%. Técnicas de interpretabilidade de modelos fornecem explicações em nível de características que aumentam a transparência. Os achados experimentais comprovaram a viabilidade do modelo sugerido em termos de eficiência com classificação clinicamente relevante na vida real de lesões cutâneas.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O câncer de pele representa uma carga significativa para a saúde global, com taxas crescentes de incidência relatadas^{mundialmente.} A radiação artificial é reconhecida como um fator importante que contribui para o câncer de pele, levando a mutações genéticas que resultam em proliferação celular descontrolada e desenvolvimento tumoral nas células^{da pele} ^1,2_.Os cânceres de pele compreendem um grupo de doenças, incluindo melanoma, carcinoma de células escamosas e carcinoma basocelular (BCC). As causas, a apresentação clínica e os fatores prognósticos dessas condições variam³. Doenças de pele se tornaram um obstáculo no diagnóstico médico devido às semelhanças em nível de pixel⁴. Em 2022, houve 331.722 casos estimados de melanoma (58.667 mortes) e 1,2 milhão de casos de NMSC (69.416 mortes) globalmente. As taxas de mortalidade de maior índice padronizado por idade (ASR) para melanoma foram na Oceania (29,78/100.000), América do Norte (16,3) e Europa (10,43). No entanto, a razão mortalidade/incidência foi maior na África (0,35) e Ásia (0,30) em comparação com América do Norte e Oceania (0,02 em ambas), o que pode refletir um prognóstico^{mais pior 1}. Em dermatologia, o diagnóstico e o monitoramento de lesões cutâneas têm se baseado principalmente em exame visual e outras avaliações não invasivas. Métodos invasivos não são aplicados porque podem danificar as lesões e impedir a realização de um acompanhamento clínico do crescimento^{da lesão 5}. Lesões cutâneas podem ser de diferentes tipos: melanoma (MEL), dermatofibroma (DF), ceratose actínica e carcinoma intraepitelial (AKIEC), carcinoma basocelular (BCC), ceratose benigna (BKL), nevo melanocítico (NV) e lesões vasculares (VASC), conforme definido no conjunto de dados^{HAM10000 5}. Os principais desafios na classificação de imagens dermatoscópicas são a presença de cabelos, tintas, marcas de régua, manchas coloridas, brilhos, gotas, bolhas de óleo, vasos sanguíneos, áreas hiperpigmentadas e/ou lesões^{inflamatórias 6}. Já foram realizados estudos anteriormente sobre seleção de características e aprendizado profundo para imagem médica e classificação de lesões^cutâneas ^7,8.

Abordagens baseadas em visão computacional para diagnóstico de câncer de pele e integração de características artesanais e profundas também foram^{investigadas 9}, juntamente com estratégias de fusão de características para melhorar o desempenho na^{classificação 10}. Avanços recentes enfatizam ainda mais a integração do aprendizado de máquina em sistemas de saúde e frameworks seguros de processamento de dados^{médicos 11,12}_.A utilização da IA em saúde, impulsionada por algoritmos computacionais avançados, tem potencial para oferecer programas de cuidados integrados personalizados e eficientes, especialmente benéficos para pacientes em ambientes remotos e^{domiciliares 13}. Ao utilizar conjuntos de dados extensos de imagens dermatoscópicas, modelos de aprendizado profundo — especialmente redes neurais convolucionais (CNNs) — podem ser treinados para identificar e classificar com precisão diversas lesões cutâneas. Diversas técnicas mostram resultados fortes na segmentação de lesões cutâneas, incluindo redes totalmente convolucionais (FCNs), CNNs, CNNs profundas (DCNNs), redes residuais totalmente convolucionais (FCRNs) e arquiteturas U-Net. Redes neurais profundas (DNNs) não são facilmente interpretáveis devido à sua arquitetura altamente complexa, tornando seu processo de tomada de decisão difícil de compreender^14,15. Avanços recentes na análise de imagens médicas demonstraram que redes neurais convolucionais profundas (CNNs) melhoram significativamente a eficiência nas tarefas de classificação de lesões cutâneas. Diversos estudos sobre conjuntos de dados dermoscópicos como HAM10000 mostraram que arquiteturas baseadas em CNN, incluindo ResNet, DenseNet e EfficientNet, alcançam forte desempenho de classificação multiclasse ao aprender representações hierárquicas de características a partir de imagens de lesões. Abordagens híbridas de fusão de características, onde múltiplas espinhas dorsais CNN são combinadas, melhoraram ainda mais a precisão diagnóstica ao integrar representações profundas^{complementares 16}. Além disso, estudos atuais investigaram modelos híbridos CNN Transformer em análise de imagens médicas. Modelos com transformador de visão e extratores de características CNN têm comprovado melhores resultados em tarefas de classificação de lesões cutâneas porque conseguem extrair melhor conteúdo local de textura, bem como relações contextuais^{globais 17}. Esses designs híbridos também são vistos como de ponta em imagem médica porque possuem uma capacidade equilibrada de aprendizado representativo.

Em outras áreas da medicina, estratégias de fusão de características têm sido amplamente utilizadas fora da dermatologia. Sistemas híbridos baseados em CNN também foram aplicados na análise de imagens histopatológicas para alcançar melhor classificação do câncer de pulmão e cólon, com representações de características aprimoradas e dinâmicas de aprendizagem^{espacial 16}. Igualmente, em oftalmologia, o uso de modelos de aprendizado profundo treinados com representações de características fundidas demonstrou aplicação bem-sucedida no estádio de imagens do fundo do zoo por retinopatia diabética, com melhor robustez e precisão de classificação em uma tarefa de avaliação^{multiclasse 18}. Métodos de fusão multimodais nessas áreas sugerem que representações heterogêneas de características produzem melhor generalização e classificação, especialmente em dados médicos^{desequilibrados 19}.

Embora essas melhorias tenham sido feitas, as práticas atuais geralmente se limitam a serem multimodais, não integradas, inadequadas para lidar com o desequilíbrio de classes e pouco úteis na tomada de decisões clínicas. Para superar essas questões, este artigo apresenta um modelo explicável de classificação de lesões cutâneas que é consciente da privacidade e integra ambos os métodos de interpretabilidade do modelo. Esses métodos de explicabilidade podem ser usados para explicar as previsões do modelo, mostrando quais características são mais importantes e destacando áreas significativas das imagens dermoscópicas, aumentando a clareza e a confiança nos procedimentos clínicos, melhorando assim a transparência clínica, construindo confiança e apoiando a implementação segura de sistemas de IA na prática clínica. Há um desequilíbrio significativo no conjunto de dados HAM10000, com algumas classes tendo muito menos amostras do que outras. Para superar esse problema, a técnica de superamostragem de minorias sintéticas (também conhecida como balanceamento de classes) é usada para gerar amostras sintéticas para classes sub-representadas. Técnicas de balanceamento de classes equilibram o conjunto de dados, permitindo que o modelo aprenda melhor a partir dos tipos de lesões minoritárias, aumentando a sensibilidade e possibilitando uma previsão mais confiável de classes clinicamente significativas, porém menos frequentes, de câncer de pele. Características profundas do EfficientNet-B4, DenseNet201 e MobileNetV2 são combinadas com os metadados clínicos para formar uma representação mais informativa de cada lesão cutânea. Essa dupla funcionalidade nos ajuda a extrair os padrões visuais de imagens dermoscópicas e outras informações dos pacientes para uma análise mais aprofundada. As características são então treinadas em diferentes classificadores, incluindo XGBoost, LightGBM e uma Rede Neural Profunda, para aprimorar a capacidade e o poder do modelo de classificação de lesões cutâneas. O conjunto dos modelos é usado com uma técnica de conjunto empilhante para aprimorar o modelo. Este é um modelo composto que aproveita as forças de múltiplos modelos para aprender e se beneficiar das previsões de todos os modelos do conjunto, enquanto mitiga suas limitações.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudo utilizou conjuntos de dados dermoscópicos totalmente anonimizados e disponíveis publicamente e não envolveu participação humana direta; portanto, não era necessária aprovação do comitê ético. A Tabela de Materiais contém detalhes de todos os materiais ou ferramentas utilizados neste estudo. A Tabela 1 inclui detalhes do ambiente de hardware e software, como tipo de processador, memória, sistema operacional e frameworks de software. A Tabela 2 inclui detalhes da precisão por classe, recordação, pontuação F1 e suporte para cada categoria de lesão cutânea.

Fluxo de trabalho geral do framework proposto para classificação multimodal de lesões cutâneas

O plano geral desta pesquisa é criar um esquema preciso e compreensível de multi-classificação das lesões cutâneas. O fluxo de trabalho começa com a coleta de dados e pré-processamento do conjunto de dados HAM10000, depois segue para a extração de recursos usando arquiteturas de deep learning e a inclusão de metadados clínicos. Em seguida, vários classificadores de aprendizado de máquina são treinados e otimizados, e seus resultados são agregados em uma estratégia de conjunto. Por fim, as previsões do modelo são interpretadas usando técnicas de explicabilidade, e a eficácia do modelo é avaliada para uso em suporte à decisão clínica no mundo real.

Para melhorar a precisão preditiva do sistema proposto, é utilizado um pipeline multimodal de aprendizado de máquina, que combina tanto características baseadas em imagem quanto metadados clínicos (como mostrado na Figura 1). O modelo pode somar os resultados visuais das imagens dermoscópicas com as informações relacionadas ao paciente para identificar padrões mais detalhados relacionados a diversas lesões cutâneas. Com essa combinação, o sistema pode fazer previsões melhores, o que acabará acontecendo. Melhorar a qualidade e a utilidade da classificação de lesões cutâneas. Três características convolucionais Deep pré-treinadas são extraídas com a ajuda de redes neurais (EfficientNet-B4, DenseNet201 e MobileNetV2): elas são capazes de capturar uma variedade de padrões complementares de imagens dermoscópicas. Essas arquiteturas aprendem padrões de alto nível em como as lesões de pele se apresentam, como mudanças de cor e textura, e a forma como são construídas. Em seguida, um módulo de fusão de características combina as características profundas com as características clínicas e dados demográficos para criar uma característica multimodal rica. Os dados mesclados são então separados em dados de treinamento, validação e teste para garantir testes adequados do modelo. Em seguida, um módulo de fusão de características é usado para fundir as características profundas com as características clínicas e a demografia, produzindo uma característica multimodal rica. Esses dados são então divididos em dados de treinamento, teste e validação para testar o modelo. Uma estratégia de conjunto é usada para aumentar ainda mais a precisão das previsões. Isso é feito fazendo a média dos resultados de vários modelos e chegando à previsão final usando essas probabilidades médias para aumentar a generalização e minimizar a variância que, de outra forma, teria sido causada por modelos individuais. Além disso, métodos de explicabilidade, como técnicas de interpretabilidade do modelo, também são integrados para explicar melhor como o modelo toma suas decisões. O método de interpretabilidade do modelo fornece interpretações em nível de característica ao quantificar a contribuição das variáveis de entrada, enquanto o método de interpretabilidade do modelo identifica áreas importantes dentro das imagens dermoscópicas em nível de pixel que afetam a previsão. Técnicas de interpretabilidade de modelos oferecem explicações em nível de característica ao quantificar a contribuição de cada variável de entrada, enquanto técnicas de interpretabilidade de modelos destacam regiões importantes no nível de pixel dentro de imagens dermoscópicas que influenciam a previsão. Combinadas, essas técnicas tornam os modelos mais interpretáveis e ajudam os profissionais a entender como o sistema toma as decisões. Como resultado, o pipeline proposto oferece um sistema compreensível e consciente da privacidade, aumentando a transparência e a confiança e possibilitando um diagnóstico de câncer de pele mais confiável em um ambiente real de saúde.

Descrição do conjunto de dados com preparação

Neste artigo, o conjunto de dados HAM10000 (Humano contra Máquina com 10.000 imagens de treinamento) é usado como o principal conjunto de dados para a classificação de lesões cutâneas multi-classe. O conjunto de dados contém mais de 10.000 figuras dermoscópicas coletadas de diversas fontes médicas. Fontes clínicas e populações, tornando-o um dos conjuntos de dados de referência mais amplamente utilizados na análise dermatológica de imagens. Cada imagem no conjunto de dados é acompanhada por metadados clínicos importantes, incluindo identificadores de imagem, rótulos diagnósticos, idade do paciente, sexo e localização anatômica da lesão. O conjunto de dados abrange sete categorias diagnósticas: ceratoses actínicas (akiec), carcinoma basocelular (bcc), ceratose benigna (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesões vasculares (vasc) e melanoma (mel).

Pré-processamento de metadados clínicos

Características auxiliares adicionadas à linha de classificação incluíram metadados clínicos, como idade, sexo e localização da lesão no paciente. Havia valores ausentes ou desconhecidos, que foram tratados por meio de uma abordagem determinística de pré-processamento. No caso da variável idade (numérica), a idade mediana calculada no conjunto de treinamento foi usada para imputar os valores faltantes. A razão pela qual a imputação mediana foi escolhida é que ela é resistente a valores atípicos e dados enviesados, que são prevalentes em dados clínicos. Para sexo e localização da lesão (variáveis categóricas), valores ausentes ou não especificados não foram excluídos; Eles foram designados para uma categoria especial rotulada como 'Desconhecido'. O método mantém todas as amostras disponíveis, e o modelo é livre para determinar se a ausência em si é preditiva. A codificação one-hot foi então aplicada a variáveis categóricas para permitir que fossem compatíveis com modelos de aprendizado de máquina. Todo o pré-processamento, como imputação, codificação, etc., era feito apenas no conjunto de treinamento, e as mesmas transformações eram feitas nos conjuntos de validação e experimento para evitar perda de dados. Não houve amostras excluídas apenas por falta de metadados clínicos, o que garantiu que os dados fossem aproveitados ao máximo e que houvesse consistência metodológica.

Figura 1: Sistema multimodal para classificação de lesões cutâneas. A abordagem do estudo combina características dermoscópicas de imagem com metadados do paciente para classificar lesões cutâneas usando modelos de deep learning em conjunto. A estrutura inclui pré-processamento, extração de características, fusão multimodal e classificação, permitindo desempenho diagnóstico aprimorado e interpretabilidade. Por favor, clique aqui para ver uma versão ampliada desta figura.

O fluxo de trabalho descreve a linha de classificação sugerida, baseada em imagens dermoscópicas e metadados clínicos do conjunto de dados de lesões cutâneas HAM10000. EfficientNet-B4, DenseNet201 e MobileNetV2 são usados para pré-processar e extrair características profundas em imagens. Os metadados clínicos são codificados, e a fusão de características é usada para combinar as características da imagem com os metadados clínicos. Para abordar o problema do desequilíbrio de classes, a técnica de balanceamento de classes é usada no espaço de características multimodal fundido, em vez das imagens brutas ou dos fluxos individuais, onde amostras sintéticas mantêm a combinação tanto das características visuais quanto clínicas e não produzem amostras irreais. As características mesclaras são então treinadas em classificadores como XGBoost, LightGBM e um classificador neural profundo.

Figura 2: Exemplo de imagens dermoscópicas de sete diferentes grupos diagnósticos do conjunto de dados HAM10000. As imagens mostram características visuais típicas usadas para classificação automatizada. (A) Ceratoses actínicas (akiec), demonstrando superfícies rugosas com pigmentação irregular. (B) Carcinoma basocelular (bcc), com formas e vasos sanguíneos irregulares. (C) Lesões benignas semelhantes à ceratose (bkl), apresentando características ceratóticas com superfícies marrom claras. (D) Dermatofibroma (df), com aparência central semelhante a cicatriz e pigmentação. (E) Nevos melanocíticos (nv), toupeiras benignas e relativamente simétricas. (F) Lesões vasculares (vasca), apresentando aparência avermelhada-púrpura devido a vasos sanguíneos. (G) Melanoma (mel), que se apresenta como uma lesão de formato irregular, assimétrica e multipigmentada. Por favor, clique aqui para ver uma versão ampliada desta figura.

Essas imagens dermoscópicas revelam a heterogeneidade visual das lesões cutâneas, que apresentam variações na pigmentação, textura e morfologia da estrutura. Essas variações representam um grande desafio para sistemas automatizados de classificação e ressaltam a importância dos sistemas baseados em deep learning. Técnicas de extração de características sensíveis à revelação de padrões diagnósticos sutis. Após a descrição do conjunto de dados, a Figura 2 ilustra as sete categorias de lesões cutâneas incluídas no conjunto de dados HAM10000, que são comumente estudadas em pesquisas de imagem diagnóstica dermatológica. Essas classes incluem Ceratoses Actinas (akiec), Carcinoma Basocelular (bcc), Ceratose Benigna (bkl), Dermatofibroma (df), Nevi Melanocíticos (nv), Lesões Vasculares (vasc) e Melanoma (mel⁾²¹. Todos esses tipos de lesões possuem características visuais únicas, como mostrado na Figura 3, que incluem variação nos padrões de pigmentação, textura da superfície, distribuição de cores e anormalidades ao longo das bordas da lesão. As características visuais de todas essas lesões são diferentes e são caracterizadas por variações nos padrões de pigmentação, textura superficial, distribuição de cores e anormalidades nas bordas das lesões. Essas são características importantes que os dermatologistas terão em mente ao realizar o exame clínico e, portanto, precisam ser bem modeladas por modelos de aprendizado de máquina para alcançar a classificação correta. Embora essas sejam as características diferenciadoras, muitas dessas lesões parecem praticamente idênticas, o que dificulta diferenciá-las ao observar apenas imagens dermoscópicas. A distinção entre certos tipos de lesões é tipicamente extremamente sutil, mas clinicamente pertinente, tornando difícil classificar automaticamente. Por isso, é urgente criar modelos de IA potentes capazes de treinar imagens visuais detalhadas e diferenças sutis nas lesões entre classes de lesões. Essas propriedades não só serão aprimoradas pela descrição adequada, o que resultará na melhoria das habilidades discriminativas do modelo com diferentes tipos de lesões, mas também ajudará a diagnosticar algumas condições perigosas, como melanoma, mais cedo. Por fim, pode aumentar a precisão do diagnóstico, informar os profissionais na tomada de decisões que resultam em melhores resultados para os pacientes e ajudar a tomar decisões melhores.

Figura 3: Distribuição por classes das lesões cutâneas no conjunto de dados HAM10000. A figura mostra a distribuição das sete categorias de lesões consideradas neste estudo: Ceratoses Actinas (akiec), Carcinoma Basocelular (bcc), Lesões Benignas semelhantes à Ceratose (bkl), Dermatofibroma (df), Nevi Melanocíticos (nv), Lesões Vasculares (vasc) e Melanoma (mel). Este gráfico ilustra o desequilíbrio de classes entre as classes de lesões. Por favor, clique aqui para ver uma versão ampliada desta figura.

A análise do conjunto de dados mostra que há um desequilíbrio nas classes dos diferentes tipos de lesões. O tipo mais comum de Nevi Melanocíticos (nv), com aproximadamente 6.705 amostras, é o tipo mais comum, seguido por Melanoma (1.113) e Ceratose Benigna (1.099). Pelo contrário, existem algumas formas de lesões de importância clínica significativamente menos representadas, como o Dermatofibroma (115) e as Lesões Vasculares (142). Essa desproporção representa uma ameaça aos modelos de aprendizado de máquina porque eles podem ter tendência a favorecer as classes majoritárias e são incapazes de detectar lesões incomuns, porém clinicamente significativas. Para lidar com essa questão e melhorar o treinamento do modelo sobre o desempenho do modelo em relação a todas as classes, é necessário pré-processamento avançado. Estratégias são necessárias. Essas técnicas incluem aumento de dados direcionados e balanceamento de classes. Os dados podem ser balanceados usando a técnica (técnica de balanceamento de classes e ajuste de peso de classe), que incentiva o modelo a descobrir tendências substanciais nas classes sub-representadas. Os hiperparâmetros usados para XGBoost e LightGBM foram configurados principalmente para suas configurações padrão, com pequenos ajustes baseados em experimentos preliminares. Para o classificador neural profundo, parâmetros arquitetônicos e de treinamento, como número de camadas, neurônios, taxa de aprendizado, tamanho do lote e número de épocas, foram selecionados empiricamente usando dados de validação. O conjunto completo de hiperparâmetros é fornecido na Tabela 3. Em geral, o número de imagens dermoscópicas utilizadas no presente estudo é de 10.015 ao todo. Isso tem o benefício de fornecer uma vasta coleção de dados para serem treinados e testados, sendo também um critério tedioso, porém recompensador. Avalie a eficácia do sistema proposto de classificação de lesões cutâneas.

Pré-processamento de dados

O pipeline de pré-processamento prepara o conjunto de dados HAM10000 para aprendizado multimodal, padronizando imagens, extraindo características profundas, integrando metadados clínicos e corrigindo o desequilíbrio de classes.

Padronização de Imagens: Todas as imagens dermoscópicas foram redimensionadas para 224 × 224 pixels e normalizadas usando normalização z-score.

Equação 1 (1)

Onde eu represento a imagem bruta, μ denota a média pixelada, e σ é o desvio padrão.

Extração Profunda de Características: Características profundas complementares foram extraídas usando três redes neurais convolucionais pré-treinadas: Efficient-Net B4, DenseNet201, juntamente com MobileNetV2. Cada rede mapeia a imagem normalizada para um vetor de características.

Equação 2 (2)

As características extraídas foram concatenadas para formar uma representação unificada:

Fusão F=F_EffB4 ||F_denso ||F_MobV2 (3)

(onde || significa concatenação)

Integração de Metadados Clínicos: Atributos clínicos, incluindo idade, sexo, juntamente com localização da lesão, foram limpos, codificados e normalizados usando escala min-max:

Equação 4 (4)

O vetor de metadados processado M_clinicalfoi fundido com características de imagem para construir a entrada multimodal final:

F_combinado=F_fusão_{M clínico} (5)

Divisão de Conjuntos de Dados: Uma divisão estratificada foi aplicada para preservar a distribuição de classes

D_trem,_{D test}=Split(_{F comibed,0.8}) (6)

Tratamento do desequilíbrio de classes: O conjunto de dados HAM10000 apresenta um desequilíbrio severo entre as classes, onde amostras de "nevus" (NV) prevalecem por serem sub-representadas em outros grupos minoritários, como DF com VASC. Para reduzir esse problema, foi empregada a "Técnica de Superamostragem Sintética de Minorias" (técnica de balanceamento de classes). Utilizando: Novas amostras sintéticas foram produzidas como:

x_novo=_{x i}+ λ(x_zi-_{x i}) (7)

Equação 8

Onde x_i é uma amostra de classe minoritária, x_zi é um de seus vizinhos mais próximos, e λ é um valor aleatório amostrado de uma distribuição uniforme entre 0 e 1. A amostra sintética, como mostrado na Figura 4, é gerada ao longo do segmento de linha que une x sub i.e xent unindo x_i e_{x zi}.

Figura 4: Distribuição de classes no conjunto de dados HAM10000 antes/após aplicar a técnica de balanceamento de classes. (A) Antes do balanceamento de classes, com desequilíbrio entre classes de lesões. (B) Após o balanceamento de classes no espaço combinado de características, onde a representação de todas as classes é igual para evitar viés no processo de treinamento do classificador. Por favor, clique aqui para ver uma versão ampliada desta figura.

Para abordar o problema do desequilíbrio de classes no conjunto de dados HAM10000, aplica-se a Técnica de Superamostragem de Minorias Sintéticas (técnica de balanceamento de classes). A técnica de balanceamento de classes gera amostras sintéticas para as classes minoritárias interpolando entre pontos de dados existentes, o que ajuda a aumentar a representação de categorias de lesões sub-representadas. O resultado final de produzir mais exemplos dessas classes minoritárias é um conjunto de dados mais equilibrado no geral, em relação a todos os sete tipos de lesão. Essa representação equilibrada permitirá que os modelos de classificação aprendam melhor com cada classe e minimizem o viés com as classes maioritárias. Consequentemente, o modelo é mais justo na classificação e sensível, especialmente a lesões cutâneas raras, porém clinicamente importantes.

Estrutura de aprendizagem que preserva a privacidade

O sistema sugerido propõe um sistema multimodal de classificação automatizada de lesões na pele, que seja consciente da privacidade e interpretável. O objetivo final do sistema é aprimorar o desempenho diagnóstico e, ao mesmo tempo, proteger informações sensíveis dos pacientes durante todo o processo de treinamento. A privacidade do paciente é uma necessidade essencial na prática médica, pois as leis de privacidade de dados em saúde e considerações éticas são extremamente importantes nos ambientes de saúde. Assim, o modelo sugerido incluirá um modelo de aprendizagem descentralizada baseado nas ideias da aprendizagem federada. Nesse ambiente descentralizado, o treinamento de modelos é realizado em um grupo de clientes distribuídos, em vez de agregar todos os dados dos pacientes em um local centralizado. Todos os clientes participantes treinam o modelo localmente com seus próprios dados, e os dados brutos dos pacientes não saem do ambiente local. Como alternativa à transferência de prontuários médicos sensíveis, atualizações ou parâmetros de modelos são enviados para um servidor central para serem agregados. Essa abordagem cooperativa de aprendizado permite que as diversas instituições ou fontes de dados contribuam para o treinamento do modelo sem comprometer a privacidade dos dados.

Seja w_t^(k) os parâmetros do modelo do k-ésimo cliente na t-ésima iteração, e seja n_k o tamanho da amostra naquele cliente. A atualização do modelo global é calculada como:

Equação 8 (8)

Essa estratégia de agregação garante que clientes com conjuntos de dados maiores contribuam proporcionalmente mais para o modelo global, ao mesmo tempo em que permite que clientes menores participem do processo de aprendizado. Ao permitir o treinamento colaborativo sem a troca de dados brutos dos pacientes, a estrutura proposta mantém a privacidade enquanto ainda se beneficia do conhecimento distribuído entre os conjuntos de dados.

Configuração experimental federada

Um sistema simulado de aprendizado federado com o conjunto de dados HAM10000 foi projetado para confirmar a eficiência do framework consciente da privacidade oferecido. Os dados foram divididos em três clientes para simular um ambiente multi-institucional real com dados distribuídos de forma não idêntica (não-IID). Cada cliente tem uma mistura variável de classes de lesões, e isso representa uma variação no mundo entre os centros clínicos. O pipeline multimodal idêntico de extração de recursos (EfficientNet-B4, DenseNet201, MobileNet V2 e metadados clínicos) era executado localmente em todos os clientes. No treinamento, os clientes atualizavam seus modelos locais por conta própria, e os parâmetros aprendidos eram trocados apenas com o servidor central para serem agregados pelo algoritmo FedAvg. O equilíbrio entre precisão preditiva e privacidade foi comparado entre o modelo federado e a abordagem centralizada de treinamento para medir o desempenho de cada um. Os resultados dos testes indicados na Figura 5 mostram que o modelo federado pode ter desempenho competitivo, com apenas uma leve diminuição na precisão em relação ao aprendizado centralizado, e uma privacidade de dados muito melhorada.

Figura 5: Distribuição cliente a cliente do conjunto de dados HAM10000. Isso mostra a alocação de dados de lesões cutâneas entre os clientes, demonstrando a diversidade na distribuição dos dados. Isso demonstra a heterogeneidade dos dados entre os clientes, um aspecto crítico da aprendizagem federada. Por favor, clique aqui para ver uma versão ampliada desta figura.

Distribuições heterogêneas (não-IID) dos clientes formados em HAM10000 foram divididas em três grupos para modelar condições clínicas da vida real. A distribuição das diferentes categorias de lesões em cada cliente é diferente, especialmente a classe de nevo (nv), que não é distribuída de forma uniforme entre os clientes. Esse arranjo é indicativo das dificuldades reais do aprendizado federado, nas quais os dados nas instituições não são distribuídos de forma uniforme.

Comparação de desempenho: aprendizagem centralizada vs federada

Para avaliar a eficácia do modelo de aprendizagem federada proposto, foi realizada uma análise comparativa entre estratégias de treinamento centralizadas e federadas utilizando o conjunto de dados HAM10000, conforme mostrado na Figura 6. No ambiente centralizado, todas as amostras de dados eram agregadas em um único pool de treinamento. O modelo centralizado de melhor desempenho, o empilhado, alcançou uma precisão geral de 96%. Em contraste, o cenário federado distribuiu o conjunto de dados entre três clientes com dados não idênticos distribuídos (não-IID), onde cada cliente treinou o modelo localmente e compartilhou apenas parâmetros usando FedAvg. O modelo federado alcançou uma precisão geral de aproximadamente 94%, correspondendo a uma diferença de desempenho de 2% em comparação com a abordagem centralizada, conforme mostrado na Tabela 4. Essa diminuição marginal é esperada devido à otimização descentralizada e à distribuição heterogênea dos dados entre os clientes.

Mesmo com essa pequena mudança, o modelo federado ainda teve bom desempenho em prever. No treinamento centralizado, o comportamento por turma mostra que a maioria das classes, como nevus (nv) (escórrea F1 = 1,00), permanece estável, enquanto classes minoritárias, como dermatofibroma (df) (pontuação F1 ≈ 0,65–0,66), são mais sensíveis ao desequilíbrio de distribuição, o que pode afetar ainda mais o desempenho federado. Notavelmente, a estrutura federada minimiza as chances de expor informações sensíveis dos pacientes, pois não exige o compartilhamento de dados médicos brutos entre os clientes.

Figura 6: Comparação de aprendizagem federada vs. aprendizagem centralizada. Esta figura compara paradigmas de aprendizagem usando métricas de desempenho como precisão, exatidão, recordação e pontuação F1. Isso demonstra a capacidade da aprendizagem federada de alcançar desempenho comparável ao da abordagem tradicional de aprendizagem, preservando a privacidade. Por favor, clique aqui para ver uma versão ampliada desta figura.

Os resultados da Tabela 4 indicam que o modelo de aprendizagem federada é capaz de ser competitivo, e a queda na precisão é apenas de aproximadamente 2% em comparação com o modelo centralizado. Essa pequena redução pode ser explicada pela otimização descentralizada e pela distribuição de dados não IID. No entanto, o modelo federado tem uma enorme vantagem no que diz respeito à proteção da privacidade, pois as informações sensíveis dos pacientes não são compartilhadas entre os clientes. Para fornecer uma comparação justa entre o modelo federado e o modelo centralizado de conjunto empilhado, o modelo federado foi testado com a mesma arquitetura e hiperparâmetros. O aspecto de preservação da privacidade discutido neste estudo é conceitual e destinado a destacar a potencial integração de técnicas como a aprendizagem federada em trabalhos futuros. Nenhuma validação experimental dos mecanismos de preservação da privacidade é realizada na implementação atual.

Fusão de características multimodal

O diagnóstico de lesões cutâneas geralmente inclui observação cutânea e histórico clínico. Dermatologistas, na maioria dos casos, não consideram apenas as imagens dermoscópicas, colocando-as em relação às informações do paciente (idade, sexo e localização da lesão) para fazer seus julgamentos diagnósticos. O sistema proposto baseia-se na inspiração desse fluxo de trabalho clínico e incorpora uma abordagem multimodal para o aprendizado que combine dados baseados em imagens e clínicos. CNNs são treinadas com características profundas de imagem dermoscópica pré-existentes. Essas redes reconhecem designs visuais intrincados, incluindo mudanças de cor, formas de lesões, anomalias estruturais e características de textura. No entanto, as características das imagens podem não ser suficientes para registrar a situação clínica de uma lesão. Metadados clínicos relacionados a cada imagem também são incluídos no aprendizado. Será criado um módulo de fusão de características que integrará características de imagem profunda com atributos clínicos processados e informações demográficas. Essa representação composta constitui uma representação integrada multimodal de características que consiste tanto em informações visuais quanto contextuais de cada lesão. O modelo pode integrar várias fontes de dados para obter padrões complementares que aprimoram a capacidade geral de classificação. A representação multimodal permite que o sistema diferencie de forma mais eficaz lesões visualmente semelhantes, bem como considere os indicadores clínicos. O modelo é mais clinicamente significativo e eficaz, pois é uma aproximação mais próxima de como os dermatologistas estudam lesões na prática clínica.

Aprendizado em conjunto empilhado
A estrutura proposta utiliza uma estratégia de aprendizado em conjunto empilhado para aprimorar ainda mais a capacidade preditiva do sistema. Aprendizagem em conjunto é um método composto de previsão que utiliza dois ou mais modelos preditivos para potencializar a generalização e minimizar os erros de previsão que podem ocorrer com modelos únicos. Múltiplos aprendizes base são treinados de forma independente na representação multimodal de características, em vez de usar um único classificador. Todos os aprendizes base fornecem uma estimativa de quão provável é que uma amostra específica pertença a uma determinada classe de lesão. Essas previsões de probabilidade são então agregadas em um nível meta. Um peso é atribuído a cada aprendiz base para mostrar sua importância relativa para a previsão final. Uma função de ativação softmax é usada para calcular a saída agregada e gerar probabilidades de classe normalizadas. O método do conjunto empilhado traz vários benefícios. Primeiro, minimiza a variância da previsão devido à combinação de vários modelos e, assim, melhora o desempenho da generalização. Segundo, isso aumenta a força, já que vários modelos descrevem diferentes tendências nos dados. Terceiro, a aprendizagem em conjunto aprimora a classificação de classes de lesões minoritárias, especialmente em dados médicos, onde certas condições de interesse clínico não são tão prevalentes.

Integração de inteligência artificial explicável

Sistemas de IA médica também devem oferecer explicações claras de suas escolhas, mesmo que alta precisão nas previsões seja fundamental. Para depositar confiança nos sistemas de IA e serem eficazes em sua prática, os profissionais devem ser capazes de compreender como um modelo se encaixa no diagnóstico que ele produz. Para atender a essa necessidade, o framework proposto incorpora métodos explicáveis de inteligência artificial (XAI), conforme mostrado na Figura 7.

Figura 7: Matrizes de confusão de diferentes modelos de classificação para classificação de lesões cutâneas multiclasse. (A) XGBoost, (B) LightGBM, (C) Classificador Neural Profundo e (D) modelo de Conjunto Empilhado. Cada matriz de confusão mostra a relação entre a verdadeira classe (linhas) e a classe prevista (colunas) para todos os sete tipos de lesões cutâneas: akiec, bcc, bkl, df, mel, nv e vasc. Os modelos XGBoost e LightGBM têm bom desempenho para as classes nv e bkl, embora haja alguma confusão entre mel e nv. O Classificador Neural Profundo melhora a classificação de bkl e df e diminui a confusão fora da diagonal. O modelo do Conjunto Empilhado apresenta a maior consistência de classificação, com a diagonal se tornando cada vez mais dominante. Por favor, clique aqui para ver uma versão ampliada desta figura.

O sistema inclui duas abordagens populares de explicabilidade (técnica de interpretabilidade do modelo (SHapley Additives Explanations) e técnica de interpretabilidade do modelo (Local Interpretable Model-agnostic Explanations)) para dar uma visão do que o modelo prevê. O método de interpretabilidade do modelo explica características no nível das características medindo o quanto cada característica de entrada contribuiu para a previsão geral. Ela auxilia na determinação de quais variáveis clínicas/qualidades visuais têm maior impacto no resultado da classificação. Isso permite que pesquisadores e profissionais de saúde vejam o comportamento geral do modelo em todo o conjunto de dados. A técnica de interpretabilidade do modelo, por outro lado, lida com explicações locais de previsões individuais. Ela enfatiza as áreas da imagem dermoscópica que têm maior impacto na decisão do modelo. Essas explicações visuais em nível de pixel permitem que os clínicos inspecionem visualmente as áreas da lesão que informaram a classificação. O framework proposto oferece interpretabilidade global e local; Isso é alcançado integrando a técnica de interpretabilidade do modelo. O mecanismo de dupla explicação aumenta a transparência e permite que os profissionais avaliem se o modelo está direcionando padrões medicamente significativos.

Potencial de suporte à decisão clínica

Aprendizado que preserva a privacidade, fusão de características multimodais, modelagem em conjunto e IA explicável são componentes-chave de um sistema integrado e robusto para classificação automática de lesões cutâneas. Idealmente, o sistema não deve apenas ter alto poder prognóstico, mas também ser transparente e seguro, que são dois fatores-chave nos sistemas médicos, como mostrado na Figura 8.

Figura 8: Curvas das características operacionais do receptor (ROC) para o modelo de conjunto empilhado. (A–C) Esta mostra as curvas ROC para os sete tipos de lesão cutânea, com taxa de verdadeiro positivo (sensibilidade) e taxa de falso positivo (1-especificidade). A área sob a curva (AUC) representa o desempenho do modelo de conjunto empilhado na discriminação entre as classes. Por favor, clique aqui para ver uma versão ampliada desta figura.

Esse sistema oferece previsões explicáveis e proteção à privacidade. Como resultado, é um sistema benéfico para outros sistemas diagnósticos dermatológicos. Esse sistema permite que profissionais de saúde/dermatologistas avaliem a suspeita de lesões e melhorem a precisão diagnóstica e, como resultado, auxiliem profissionais/dermatologistas a diagnosticar pacientes em estágio inicial quando eles podem ter uma doença mais grave (por exemplo, melanoma). Em essência, como mostrado na Figura 9, esse sistema busca trazer para a prática as tecnologias de uso de sistemas de inteligência artificial (IA) de alta tecnologia e implementação de aplicações no mundo real, para ajudar os dermatologistas a diagnosticar pacientes com mais precisão e confiança, garantindo a privacidade e segurança dos pacientes e seu conforto.

Figura 9: Resultados de explicabilidade usando técnicas de interpretabilidade de modelos para classificação de lesões cutâneas multiclasse. (A) Gráfico SHAP mostrando contribuições de características influenciando previsões de lesões benignas e malignas. (B) Explicação LIME para a previsão do BCC, ilustrando as características que contribuem positiva e negativamente para o resultado da classificação. (C) Explicação LIME para a previsão do akiec, destacando as características mais influentes envolvidas no processo de tomada de decisão do modelo. Essas visualizações de interpretabilidade demonstram as regiões e características extraídas que afetam significativamente as previsões do modelo, melhorando a transparência e a compreensão do processo de classificação na avaliação de lesões cutâneas. Por favor, clique aqui para ver uma versão ampliada desta figura.

Estratégia de avaliação

Para evitar viés de amostragem e manter a distribuição original de classes em todas as categorias de lesões cutâneas, o conjunto de dados foi dividido em uma divisão de 80:20 entre trens e testes. O subconjunto de treinamento foi então dividido na razão 90:10 train: validar, ajustar os hiperparâmetros e otimizar o modelo. O conjunto de teste não foi utilizado no processo de treinamento em nenhuma etapa e foi aplicado apenas ao final do processo como teste final para evitar vazamento de dados e garantir uma avaliação de desempenho imparcial. Todos os modelos foram pré-processados e treinados em configurações iguais, os dados foram particionados e aumentados da mesma forma, e os protocolos de avaliação foram aplicados e seguidos da mesma forma, o que permitiu comparações justas e reprodutíveis. Os modelos foram avaliados minuciosamente com base em precisão, exatião, recordação, pontuação F1 e AUC, com uma análise detalhada dos resultados por classe para determinar sua robustez tanto para classes principais quanto para minorias de lesões. Essa ferramenta padronizada de validação ajudaria a aumentar a confiabilidade, transparência e generalização da abordagem proposta, além de superar possíveis inconsistências nos relatórios de desempenho.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Quatro métodos de classificação (XGBoost, LightGBM, um Classificador Neural Profundo e um modelo de conjunto empilhado) foram avaliados para classificação de lesões cutâneas em múltiplas classes. Os modelos alcançaram precisões gerais de 92%, 90%, 94% e 96%, respectivamente, demonstrando que c

Desempenho por classe

Uma avaliação detalhada por turma, incluindo precisão, recordação e pontuação F1 para cada categoria d...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

O protocolo atual descreve um pipeline reprodutível para criar uma estrutura multimodal interpretável, sensível à privacidade e que classifique automaticamente lesões de pele. O protocolo segue um padrão sistemático de aprimoramento do desempenho diagnóstico por meio da transparência do modelo, combinando análise dermoscópica de imagens com metadados clínicos e métodos de aprendizado de máquina interpretáveis. O conjunto de dados de lesões cutâneas HAM10000 é público e permite a avaliaçã...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Os autores não têm nada a revelar. Não temos conflitos de interesse. Os autores afirmam que ferramentas de inteligência artificial eram usadas exclusivamente para edição e formatação de idiomas. Todo o conteúdo científico, análise e interpretações foram desenvolvidos e verificados pelos autores.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Os autores agradecem à MVN University, Palwal, por fornecer orientação acadêmica e apoio à pesquisa. Os autores também reconhecem o conjunto de dados de lesões HAM10000 cutâneas disponível publicamente, que foi utilizado para a avaliação experimental deste estudo.

Access restricted. Please log in or start a trial to view this content.

Materials

```html

List of materials used in this article
Name	Company	Catalog Number	Comments
DenseNet201 CNN Architecture	IBM	https://arxiv.org/abs/1608.06993	Modelo de aprendizagem profunda para classificação de imagens
EfficientNet-B4 CNN Architecture	Google	https://arxiv.org/abs/1905.11946	Modelo de aprendizagem profunda para classificação de imagens
Plataforma Google Colaboratory	Google	https://colab.research.google.com	Ambiente computacional baseado em nuvem
Conjunto de Dados de Lesões Cutâneas HAM10000	Harvard Dataverse	https://doi.org/10.7910/DVN/DBW86T	Conjunto de dados de imagens dermoscópicas
API de Aprendizagem Profunda Keras	Google	Versão 2.x	API de rede neural
Biblioteca de Interpretabilidade LIME	Projeto LIME	Versão 0.x	Técnica de interpretabilidade de modelo
Arquitetura CNN MobileNetV2	Google	https://arxiv.org/abs/1801.04381	Modelo de aprendizagem profunda para classificação de imagens
Biblioteca de Visualização Matplotlib	Equipe de Desenvolvimento Matplotlib	Versão 3.x	Usado para gerar gráficos e visualização de desempenho
GPU da NVIDIA	NVIDIA	Série RTX	Hardware computacional para treinamento de modelo
Biblioteca de Computação Numérica NumPy	Desenvolvedores NumPy	Versão 1.x	Software de análise de dados
Biblioteca de Processamento de Imagem OpenCV	OpenCV Foundation	Versão 4.x	Biblioteca de processamento de imagem
Biblioteca de Análise de Dados Pandas	Equipe de Desenvolvimento Pandas	Versão 1.x	Software de análise de dados
Ambiente de Programação Python	Python Software Foundation	Versão 3.9+	Software de análise de dados
Biblioteca de Interpretabilidade SHAP	Projeto SHAP	Versão 0.x	Técnica de interpretabilidade de modelo
Técnica de Oversampling SMOTE	Projeto imbalanced-learn	Versão 0.x	Técnica de balanceamento de classe para lidar com conjuntos de dados desbalanceados
Biblioteca de Aprendizagem de Máquina Scikit-learn	Projeto scikit-learn	Versão 1.x	Biblioteca de aprendizagem de máquina
Estrutura de Aprendizagem Profunda TensorFlow	Google	Versão 2.x	Estrutura de aprendizagem profunda

```

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Um Conjunto Multimodal Explicável que Preserva a Privacidade para Classificação de Lesões de Pele

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles