$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Este estudo utilizou conjuntos de dados dermoscópicos totalmente anonimizados e disponíveis publicamente e não envolveu participação humana direta; portanto, não era necessária aprovação do comitê ético. A Tabela de Materiais contém detalhes de todos os materiais ou ferramentas utilizados neste estudo. A Tabela 1 inclui detalhes do ambiente de hardware e software, como tipo de processador, memória, sistema operacional e frameworks de software. A Tabela 2 inclui detalhes da precisão por classe, recordação, pontuação F1 e suporte para cada categoria de lesão cutânea.
Fluxo de trabalho geral do framework proposto para classificação multimodal de lesões cutâneas
O plano geral desta pesquisa é criar um esquema preciso e compreensível de multi-classificação das lesões cutâneas. O fluxo de trabalho começa com a coleta de dados e pré-processamento do conjunto de dados HAM10000, depois segue para a extração de recursos usando arquiteturas de deep learning e a inclusão de metadados clínicos. Em seguida, vários classificadores de aprendizado de máquina são treinados e otimizados, e seus resultados são agregados em uma estratégia de conjunto. Por fim, as previsões do modelo são interpretadas usando técnicas de explicabilidade, e a eficácia do modelo é avaliada para uso em suporte à decisão clínica no mundo real.
Para melhorar a precisão preditiva do sistema proposto, é utilizado um pipeline multimodal de aprendizado de máquina, que combina tanto características baseadas em imagem quanto metadados clínicos (como mostrado na Figura 1). O modelo pode somar os resultados visuais das imagens dermoscópicas com as informações relacionadas ao paciente para identificar padrões mais detalhados relacionados a diversas lesões cutâneas. Com essa combinação, o sistema pode fazer previsões melhores, o que acabará acontecendo. Melhorar a qualidade e a utilidade da classificação de lesões cutâneas. Três características convolucionais Deep pré-treinadas são extraídas com a ajuda de redes neurais (EfficientNet-B4, DenseNet201 e MobileNetV2): elas são capazes de capturar uma variedade de padrões complementares de imagens dermoscópicas. Essas arquiteturas aprendem padrões de alto nível em como as lesões de pele se apresentam, como mudanças de cor e textura, e a forma como são construídas. Em seguida, um módulo de fusão de características combina as características profundas com as características clínicas e dados demográficos para criar uma característica multimodal rica. Os dados mesclados são então separados em dados de treinamento, validação e teste para garantir testes adequados do modelo. Em seguida, um módulo de fusão de características é usado para fundir as características profundas com as características clínicas e a demografia, produzindo uma característica multimodal rica. Esses dados são então divididos em dados de treinamento, teste e validação para testar o modelo. Uma estratégia de conjunto é usada para aumentar ainda mais a precisão das previsões. Isso é feito fazendo a média dos resultados de vários modelos e chegando à previsão final usando essas probabilidades médias para aumentar a generalização e minimizar a variância que, de outra forma, teria sido causada por modelos individuais. Além disso, métodos de explicabilidade, como técnicas de interpretabilidade do modelo, também são integrados para explicar melhor como o modelo toma suas decisões. O método de interpretabilidade do modelo fornece interpretações em nível de característica ao quantificar a contribuição das variáveis de entrada, enquanto o método de interpretabilidade do modelo identifica áreas importantes dentro das imagens dermoscópicas em nível de pixel que afetam a previsão. Técnicas de interpretabilidade de modelos oferecem explicações em nível de característica ao quantificar a contribuição de cada variável de entrada, enquanto técnicas de interpretabilidade de modelos destacam regiões importantes no nível de pixel dentro de imagens dermoscópicas que influenciam a previsão. Combinadas, essas técnicas tornam os modelos mais interpretáveis e ajudam os profissionais a entender como o sistema toma as decisões. Como resultado, o pipeline proposto oferece um sistema compreensível e consciente da privacidade, aumentando a transparência e a confiança e possibilitando um diagnóstico de câncer de pele mais confiável em um ambiente real de saúde.
Descrição do conjunto de dados com preparação
Neste artigo, o conjunto de dados HAM10000 (Humano contra Máquina com 10.000 imagens de treinamento) é usado como o principal conjunto de dados para a classificação de lesões cutâneas multi-classe. O conjunto de dados contém mais de 10.000 figuras dermoscópicas coletadas de diversas fontes médicas. Fontes clínicas e populações, tornando-o um dos conjuntos de dados de referência mais amplamente utilizados na análise dermatológica de imagens. Cada imagem no conjunto de dados é acompanhada por metadados clínicos importantes, incluindo identificadores de imagem, rótulos diagnósticos, idade do paciente, sexo e localização anatômica da lesão. O conjunto de dados abrange sete categorias diagnósticas: ceratoses actínicas (akiec), carcinoma basocelular (bcc), ceratose benigna (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesões vasculares (vasc) e melanoma (mel).
Pré-processamento de metadados clínicos
Características auxiliares adicionadas à linha de classificação incluíram metadados clínicos, como idade, sexo e localização da lesão no paciente. Havia valores ausentes ou desconhecidos, que foram tratados por meio de uma abordagem determinística de pré-processamento. No caso da variável idade (numérica), a idade mediana calculada no conjunto de treinamento foi usada para imputar os valores faltantes. A razão pela qual a imputação mediana foi escolhida é que ela é resistente a valores atípicos e dados enviesados, que são prevalentes em dados clínicos. Para sexo e localização da lesão (variáveis categóricas), valores ausentes ou não especificados não foram excluídos; Eles foram designados para uma categoria especial rotulada como 'Desconhecido'. O método mantém todas as amostras disponíveis, e o modelo é livre para determinar se a ausência em si é preditiva. A codificação one-hot foi então aplicada a variáveis categóricas para permitir que fossem compatíveis com modelos de aprendizado de máquina. Todo o pré-processamento, como imputação, codificação, etc., era feito apenas no conjunto de treinamento, e as mesmas transformações eram feitas nos conjuntos de validação e experimento para evitar perda de dados. Não houve amostras excluídas apenas por falta de metadados clínicos, o que garantiu que os dados fossem aproveitados ao máximo e que houvesse consistência metodológica.

Figura 1: Sistema multimodal para classificação de lesões cutâneas. A abordagem do estudo combina características dermoscópicas de imagem com metadados do paciente para classificar lesões cutâneas usando modelos de deep learning em conjunto. A estrutura inclui pré-processamento, extração de características, fusão multimodal e classificação, permitindo desempenho diagnóstico aprimorado e interpretabilidade. Por favor, clique aqui para ver uma versão ampliada desta figura.
O fluxo de trabalho descreve a linha de classificação sugerida, baseada em imagens dermoscópicas e metadados clínicos do conjunto de dados de lesões cutâneas HAM10000. EfficientNet-B4, DenseNet201 e MobileNetV2 são usados para pré-processar e extrair características profundas em imagens. Os metadados clínicos são codificados, e a fusão de características é usada para combinar as características da imagem com os metadados clínicos. Para abordar o problema do desequilíbrio de classes, a técnica de balanceamento de classes é usada no espaço de características multimodal fundido, em vez das imagens brutas ou dos fluxos individuais, onde amostras sintéticas mantêm a combinação tanto das características visuais quanto clínicas e não produzem amostras irreais. As características mesclaras são então treinadas em classificadores como XGBoost, LightGBM e um classificador neural profundo.

Figura 2: Exemplo de imagens dermoscópicas de sete diferentes grupos diagnósticos do conjunto de dados HAM10000. As imagens mostram características visuais típicas usadas para classificação automatizada. (A) Ceratoses actínicas (akiec), demonstrando superfícies rugosas com pigmentação irregular. (B) Carcinoma basocelular (bcc), com formas e vasos sanguíneos irregulares. (C) Lesões benignas semelhantes à ceratose (bkl), apresentando características ceratóticas com superfícies marrom claras. (D) Dermatofibroma (df), com aparência central semelhante a cicatriz e pigmentação. (E) Nevos melanocíticos (nv), toupeiras benignas e relativamente simétricas. (F) Lesões vasculares (vasca), apresentando aparência avermelhada-púrpura devido a vasos sanguíneos. (G) Melanoma (mel), que se apresenta como uma lesão de formato irregular, assimétrica e multipigmentada. Por favor, clique aqui para ver uma versão ampliada desta figura.
Essas imagens dermoscópicas revelam a heterogeneidade visual das lesões cutâneas, que apresentam variações na pigmentação, textura e morfologia da estrutura. Essas variações representam um grande desafio para sistemas automatizados de classificação e ressaltam a importância dos sistemas baseados em deep learning. Técnicas de extração de características sensíveis à revelação de padrões diagnósticos sutis. Após a descrição do conjunto de dados, a Figura 2 ilustra as sete categorias de lesões cutâneas incluídas no conjunto de dados HAM10000, que são comumente estudadas em pesquisas de imagem diagnóstica dermatológica. Essas classes incluem Ceratoses Actinas (akiec), Carcinoma Basocelular (bcc), Ceratose Benigna (bkl), Dermatofibroma (df), Nevi Melanocíticos (nv), Lesões Vasculares (vasc) e Melanoma (mel)21. Todos esses tipos de lesões possuem características visuais únicas, como mostrado na Figura 3, que incluem variação nos padrões de pigmentação, textura da superfície, distribuição de cores e anormalidades ao longo das bordas da lesão. As características visuais de todas essas lesões são diferentes e são caracterizadas por variações nos padrões de pigmentação, textura superficial, distribuição de cores e anormalidades nas bordas das lesões. Essas são características importantes que os dermatologistas terão em mente ao realizar o exame clínico e, portanto, precisam ser bem modeladas por modelos de aprendizado de máquina para alcançar a classificação correta. Embora essas sejam as características diferenciadoras, muitas dessas lesões parecem praticamente idênticas, o que dificulta diferenciá-las ao observar apenas imagens dermoscópicas. A distinção entre certos tipos de lesões é tipicamente extremamente sutil, mas clinicamente pertinente, tornando difícil classificar automaticamente. Por isso, é urgente criar modelos de IA potentes capazes de treinar imagens visuais detalhadas e diferenças sutis nas lesões entre classes de lesões. Essas propriedades não só serão aprimoradas pela descrição adequada, o que resultará na melhoria das habilidades discriminativas do modelo com diferentes tipos de lesões, mas também ajudará a diagnosticar algumas condições perigosas, como melanoma, mais cedo. Por fim, pode aumentar a precisão do diagnóstico, informar os profissionais na tomada de decisões que resultam em melhores resultados para os pacientes e ajudar a tomar decisões melhores.

Figura 3: Distribuição por classes das lesões cutâneas no conjunto de dados HAM10000. A figura mostra a distribuição das sete categorias de lesões consideradas neste estudo: Ceratoses Actinas (akiec), Carcinoma Basocelular (bcc), Lesões Benignas semelhantes à Ceratose (bkl), Dermatofibroma (df), Nevi Melanocíticos (nv), Lesões Vasculares (vasc) e Melanoma (mel). Este gráfico ilustra o desequilíbrio de classes entre as classes de lesões. Por favor, clique aqui para ver uma versão ampliada desta figura.
A análise do conjunto de dados mostra que há um desequilíbrio nas classes dos diferentes tipos de lesões. O tipo mais comum de Nevi Melanocíticos (nv), com aproximadamente 6.705 amostras, é o tipo mais comum, seguido por Melanoma (1.113) e Ceratose Benigna (1.099). Pelo contrário, existem algumas formas de lesões de importância clínica significativamente menos representadas, como o Dermatofibroma (115) e as Lesões Vasculares (142). Essa desproporção representa uma ameaça aos modelos de aprendizado de máquina porque eles podem ter tendência a favorecer as classes majoritárias e são incapazes de detectar lesões incomuns, porém clinicamente significativas. Para lidar com essa questão e melhorar o treinamento do modelo sobre o desempenho do modelo em relação a todas as classes, é necessário pré-processamento avançado. Estratégias são necessárias. Essas técnicas incluem aumento de dados direcionados e balanceamento de classes. Os dados podem ser balanceados usando a técnica (técnica de balanceamento de classes e ajuste de peso de classe), que incentiva o modelo a descobrir tendências substanciais nas classes sub-representadas. Os hiperparâmetros usados para XGBoost e LightGBM foram configurados principalmente para suas configurações padrão, com pequenos ajustes baseados em experimentos preliminares. Para o classificador neural profundo, parâmetros arquitetônicos e de treinamento, como número de camadas, neurônios, taxa de aprendizado, tamanho do lote e número de épocas, foram selecionados empiricamente usando dados de validação. O conjunto completo de hiperparâmetros é fornecido na Tabela 3. Em geral, o número de imagens dermoscópicas utilizadas no presente estudo é de 10.015 ao todo. Isso tem o benefício de fornecer uma vasta coleção de dados para serem treinados e testados, sendo também um critério tedioso, porém recompensador. Avalie a eficácia do sistema proposto de classificação de lesões cutâneas.
Pré-processamento de dados
O pipeline de pré-processamento prepara o conjunto de dados HAM10000 para aprendizado multimodal, padronizando imagens, extraindo características profundas, integrando metadados clínicos e corrigindo o desequilíbrio de classes.
Padronização de Imagens: Todas as imagens dermoscópicas foram redimensionadas para 224 × 224 pixels e normalizadas usando normalização z-score.
(1)
Onde eu represento a imagem bruta, μ denota a média pixelada, e σ é o desvio padrão.
Extração Profunda de Características: Características profundas complementares foram extraídas usando três redes neurais convolucionais pré-treinadas: Efficient-Net B4, DenseNet201, juntamente com MobileNetV2. Cada rede mapeia a imagem normalizada para um vetor de características.
(2)
As características extraídas foram concatenadas para formar uma representação unificada:
Fusão F=FEffB4 ||Fdenso ||FMobV2 (3)
(onde || significa concatenação)
Integração de Metadados Clínicos: Atributos clínicos, incluindo idade, sexo, juntamente com localização da lesão, foram limpos, codificados e normalizados usando escala min-max:
(4)
O vetor de metadados processado Mclinical foi fundido com características de imagem para construir a entrada multimodal final:
Fcombinado=FfusãoM clínico (5)
Divisão de Conjuntos de Dados: Uma divisão estratificada foi aplicada para preservar a distribuição de classes
Dtrem,D test=Split(F comibed,0.8) (6)
Tratamento do desequilíbrio de classes: O conjunto de dados HAM10000 apresenta um desequilíbrio severo entre as classes, onde amostras de "nevus" (NV) prevalecem por serem sub-representadas em outros grupos minoritários, como DF com VASC. Para reduzir esse problema, foi empregada a "Técnica de Superamostragem Sintética de Minorias" (técnica de balanceamento de classes). Utilizando: Novas amostras sintéticas foram produzidas como:
xnovo=x i + λ(xzi -x i) (7)

Onde xi é uma amostra de classe minoritária, xzi é um de seus vizinhos mais próximos, e λ é um valor aleatório amostrado de uma distribuição uniforme entre 0 e 1. A amostra sintética, como mostrado na Figura 4, é gerada ao longo do segmento de linha que une x sub i.e xent unindo xi ex zi.

Figura 4: Distribuição de classes no conjunto de dados HAM10000 antes/após aplicar a técnica de balanceamento de classes. (A) Antes do balanceamento de classes, com desequilíbrio entre classes de lesões. (B) Após o balanceamento de classes no espaço combinado de características, onde a representação de todas as classes é igual para evitar viés no processo de treinamento do classificador. Por favor, clique aqui para ver uma versão ampliada desta figura.
Para abordar o problema do desequilíbrio de classes no conjunto de dados HAM10000, aplica-se a Técnica de Superamostragem de Minorias Sintéticas (técnica de balanceamento de classes). A técnica de balanceamento de classes gera amostras sintéticas para as classes minoritárias interpolando entre pontos de dados existentes, o que ajuda a aumentar a representação de categorias de lesões sub-representadas. O resultado final de produzir mais exemplos dessas classes minoritárias é um conjunto de dados mais equilibrado no geral, em relação a todos os sete tipos de lesão. Essa representação equilibrada permitirá que os modelos de classificação aprendam melhor com cada classe e minimizem o viés com as classes maioritárias. Consequentemente, o modelo é mais justo na classificação e sensível, especialmente a lesões cutâneas raras, porém clinicamente importantes.
Estrutura de aprendizagem que preserva a privacidade
O sistema sugerido propõe um sistema multimodal de classificação automatizada de lesões na pele, que seja consciente da privacidade e interpretável. O objetivo final do sistema é aprimorar o desempenho diagnóstico e, ao mesmo tempo, proteger informações sensíveis dos pacientes durante todo o processo de treinamento. A privacidade do paciente é uma necessidade essencial na prática médica, pois as leis de privacidade de dados em saúde e considerações éticas são extremamente importantes nos ambientes de saúde. Assim, o modelo sugerido incluirá um modelo de aprendizagem descentralizada baseado nas ideias da aprendizagem federada. Nesse ambiente descentralizado, o treinamento de modelos é realizado em um grupo de clientes distribuídos, em vez de agregar todos os dados dos pacientes em um local centralizado. Todos os clientes participantes treinam o modelo localmente com seus próprios dados, e os dados brutos dos pacientes não saem do ambiente local. Como alternativa à transferência de prontuários médicos sensíveis, atualizações ou parâmetros de modelos são enviados para um servidor central para serem agregados. Essa abordagem cooperativa de aprendizado permite que as diversas instituições ou fontes de dados contribuam para o treinamento do modelo sem comprometer a privacidade dos dados.
Seja wt(k) os parâmetros do modelo do k-ésimo cliente na t-ésima iteração, e seja nk o tamanho da amostra naquele cliente. A atualização do modelo global é calculada como:
(8)
Essa estratégia de agregação garante que clientes com conjuntos de dados maiores contribuam proporcionalmente mais para o modelo global, ao mesmo tempo em que permite que clientes menores participem do processo de aprendizado. Ao permitir o treinamento colaborativo sem a troca de dados brutos dos pacientes, a estrutura proposta mantém a privacidade enquanto ainda se beneficia do conhecimento distribuído entre os conjuntos de dados.
Configuração experimental federada
Um sistema simulado de aprendizado federado com o conjunto de dados HAM10000 foi projetado para confirmar a eficiência do framework consciente da privacidade oferecido. Os dados foram divididos em três clientes para simular um ambiente multi-institucional real com dados distribuídos de forma não idêntica (não-IID). Cada cliente tem uma mistura variável de classes de lesões, e isso representa uma variação no mundo entre os centros clínicos. O pipeline multimodal idêntico de extração de recursos (EfficientNet-B4, DenseNet201, MobileNet V2 e metadados clínicos) era executado localmente em todos os clientes. No treinamento, os clientes atualizavam seus modelos locais por conta própria, e os parâmetros aprendidos eram trocados apenas com o servidor central para serem agregados pelo algoritmo FedAvg. O equilíbrio entre precisão preditiva e privacidade foi comparado entre o modelo federado e a abordagem centralizada de treinamento para medir o desempenho de cada um. Os resultados dos testes indicados na Figura 5 mostram que o modelo federado pode ter desempenho competitivo, com apenas uma leve diminuição na precisão em relação ao aprendizado centralizado, e uma privacidade de dados muito melhorada.

Figura 5: Distribuição cliente a cliente do conjunto de dados HAM10000. Isso mostra a alocação de dados de lesões cutâneas entre os clientes, demonstrando a diversidade na distribuição dos dados. Isso demonstra a heterogeneidade dos dados entre os clientes, um aspecto crítico da aprendizagem federada. Por favor, clique aqui para ver uma versão ampliada desta figura.
Distribuições heterogêneas (não-IID) dos clientes formados em HAM10000 foram divididas em três grupos para modelar condições clínicas da vida real. A distribuição das diferentes categorias de lesões em cada cliente é diferente, especialmente a classe de nevo (nv), que não é distribuída de forma uniforme entre os clientes. Esse arranjo é indicativo das dificuldades reais do aprendizado federado, nas quais os dados nas instituições não são distribuídos de forma uniforme.
Comparação de desempenho: aprendizagem centralizada vs federada
Para avaliar a eficácia do modelo de aprendizagem federada proposto, foi realizada uma análise comparativa entre estratégias de treinamento centralizadas e federadas utilizando o conjunto de dados HAM10000, conforme mostrado na Figura 6. No ambiente centralizado, todas as amostras de dados eram agregadas em um único pool de treinamento. O modelo centralizado de melhor desempenho, o empilhado, alcançou uma precisão geral de 96%. Em contraste, o cenário federado distribuiu o conjunto de dados entre três clientes com dados não idênticos distribuídos (não-IID), onde cada cliente treinou o modelo localmente e compartilhou apenas parâmetros usando FedAvg. O modelo federado alcançou uma precisão geral de aproximadamente 94%, correspondendo a uma diferença de desempenho de 2% em comparação com a abordagem centralizada, conforme mostrado na Tabela 4. Essa diminuição marginal é esperada devido à otimização descentralizada e à distribuição heterogênea dos dados entre os clientes.
Mesmo com essa pequena mudança, o modelo federado ainda teve bom desempenho em prever. No treinamento centralizado, o comportamento por turma mostra que a maioria das classes, como nevus (nv) (escórrea F1 = 1,00), permanece estável, enquanto classes minoritárias, como dermatofibroma (df) (pontuação F1 ≈ 0,65–0,66), são mais sensíveis ao desequilíbrio de distribuição, o que pode afetar ainda mais o desempenho federado. Notavelmente, a estrutura federada minimiza as chances de expor informações sensíveis dos pacientes, pois não exige o compartilhamento de dados médicos brutos entre os clientes.

Figura 6: Comparação de aprendizagem federada vs. aprendizagem centralizada. Esta figura compara paradigmas de aprendizagem usando métricas de desempenho como precisão, exatidão, recordação e pontuação F1. Isso demonstra a capacidade da aprendizagem federada de alcançar desempenho comparável ao da abordagem tradicional de aprendizagem, preservando a privacidade. Por favor, clique aqui para ver uma versão ampliada desta figura.
Os resultados da Tabela 4 indicam que o modelo de aprendizagem federada é capaz de ser competitivo, e a queda na precisão é apenas de aproximadamente 2% em comparação com o modelo centralizado. Essa pequena redução pode ser explicada pela otimização descentralizada e pela distribuição de dados não IID. No entanto, o modelo federado tem uma enorme vantagem no que diz respeito à proteção da privacidade, pois as informações sensíveis dos pacientes não são compartilhadas entre os clientes. Para fornecer uma comparação justa entre o modelo federado e o modelo centralizado de conjunto empilhado, o modelo federado foi testado com a mesma arquitetura e hiperparâmetros. O aspecto de preservação da privacidade discutido neste estudo é conceitual e destinado a destacar a potencial integração de técnicas como a aprendizagem federada em trabalhos futuros. Nenhuma validação experimental dos mecanismos de preservação da privacidade é realizada na implementação atual.
Fusão de características multimodal
O diagnóstico de lesões cutâneas geralmente inclui observação cutânea e histórico clínico. Dermatologistas, na maioria dos casos, não consideram apenas as imagens dermoscópicas, colocando-as em relação às informações do paciente (idade, sexo e localização da lesão) para fazer seus julgamentos diagnósticos. O sistema proposto baseia-se na inspiração desse fluxo de trabalho clínico e incorpora uma abordagem multimodal para o aprendizado que combine dados baseados em imagens e clínicos. CNNs são treinadas com características profundas de imagem dermoscópica pré-existentes. Essas redes reconhecem designs visuais intrincados, incluindo mudanças de cor, formas de lesões, anomalias estruturais e características de textura. No entanto, as características das imagens podem não ser suficientes para registrar a situação clínica de uma lesão. Metadados clínicos relacionados a cada imagem também são incluídos no aprendizado. Será criado um módulo de fusão de características que integrará características de imagem profunda com atributos clínicos processados e informações demográficas. Essa representação composta constitui uma representação integrada multimodal de características que consiste tanto em informações visuais quanto contextuais de cada lesão. O modelo pode integrar várias fontes de dados para obter padrões complementares que aprimoram a capacidade geral de classificação. A representação multimodal permite que o sistema diferencie de forma mais eficaz lesões visualmente semelhantes, bem como considere os indicadores clínicos. O modelo é mais clinicamente significativo e eficaz, pois é uma aproximação mais próxima de como os dermatologistas estudam lesões na prática clínica.
Aprendizado em conjunto empilhado
A estrutura proposta utiliza uma estratégia de aprendizado em conjunto empilhado para aprimorar ainda mais a capacidade preditiva do sistema. Aprendizagem em conjunto é um método composto de previsão que utiliza dois ou mais modelos preditivos para potencializar a generalização e minimizar os erros de previsão que podem ocorrer com modelos únicos. Múltiplos aprendizes base são treinados de forma independente na representação multimodal de características, em vez de usar um único classificador. Todos os aprendizes base fornecem uma estimativa de quão provável é que uma amostra específica pertença a uma determinada classe de lesão. Essas previsões de probabilidade são então agregadas em um nível meta. Um peso é atribuído a cada aprendiz base para mostrar sua importância relativa para a previsão final. Uma função de ativação softmax é usada para calcular a saída agregada e gerar probabilidades de classe normalizadas. O método do conjunto empilhado traz vários benefícios. Primeiro, minimiza a variância da previsão devido à combinação de vários modelos e, assim, melhora o desempenho da generalização. Segundo, isso aumenta a força, já que vários modelos descrevem diferentes tendências nos dados. Terceiro, a aprendizagem em conjunto aprimora a classificação de classes de lesões minoritárias, especialmente em dados médicos, onde certas condições de interesse clínico não são tão prevalentes.
Integração de inteligência artificial explicável
Sistemas de IA médica também devem oferecer explicações claras de suas escolhas, mesmo que alta precisão nas previsões seja fundamental. Para depositar confiança nos sistemas de IA e serem eficazes em sua prática, os profissionais devem ser capazes de compreender como um modelo se encaixa no diagnóstico que ele produz. Para atender a essa necessidade, o framework proposto incorpora métodos explicáveis de inteligência artificial (XAI), conforme mostrado na Figura 7.

Figura 7: Matrizes de confusão de diferentes modelos de classificação para classificação de lesões cutâneas multiclasse. (A) XGBoost, (B) LightGBM, (C) Classificador Neural Profundo e (D) modelo de Conjunto Empilhado. Cada matriz de confusão mostra a relação entre a verdadeira classe (linhas) e a classe prevista (colunas) para todos os sete tipos de lesões cutâneas: akiec, bcc, bkl, df, mel, nv e vasc. Os modelos XGBoost e LightGBM têm bom desempenho para as classes nv e bkl, embora haja alguma confusão entre mel e nv. O Classificador Neural Profundo melhora a classificação de bkl e df e diminui a confusão fora da diagonal. O modelo do Conjunto Empilhado apresenta a maior consistência de classificação, com a diagonal se tornando cada vez mais dominante. Por favor, clique aqui para ver uma versão ampliada desta figura.
O sistema inclui duas abordagens populares de explicabilidade (técnica de interpretabilidade do modelo (SHapley Additives Explanations) e técnica de interpretabilidade do modelo (Local Interpretable Model-agnostic Explanations)) para dar uma visão do que o modelo prevê. O método de interpretabilidade do modelo explica características no nível das características medindo o quanto cada característica de entrada contribuiu para a previsão geral. Ela auxilia na determinação de quais variáveis clínicas/qualidades visuais têm maior impacto no resultado da classificação. Isso permite que pesquisadores e profissionais de saúde vejam o comportamento geral do modelo em todo o conjunto de dados. A técnica de interpretabilidade do modelo, por outro lado, lida com explicações locais de previsões individuais. Ela enfatiza as áreas da imagem dermoscópica que têm maior impacto na decisão do modelo. Essas explicações visuais em nível de pixel permitem que os clínicos inspecionem visualmente as áreas da lesão que informaram a classificação. O framework proposto oferece interpretabilidade global e local; Isso é alcançado integrando a técnica de interpretabilidade do modelo. O mecanismo de dupla explicação aumenta a transparência e permite que os profissionais avaliem se o modelo está direcionando padrões medicamente significativos.
Potencial de suporte à decisão clínica
Aprendizado que preserva a privacidade, fusão de características multimodais, modelagem em conjunto e IA explicável são componentes-chave de um sistema integrado e robusto para classificação automática de lesões cutâneas. Idealmente, o sistema não deve apenas ter alto poder prognóstico, mas também ser transparente e seguro, que são dois fatores-chave nos sistemas médicos, como mostrado na Figura 8.

Figura 8: Curvas das características operacionais do receptor (ROC) para o modelo de conjunto empilhado. (A–C) Esta mostra as curvas ROC para os sete tipos de lesão cutânea, com taxa de verdadeiro positivo (sensibilidade) e taxa de falso positivo (1-especificidade). A área sob a curva (AUC) representa o desempenho do modelo de conjunto empilhado na discriminação entre as classes. Por favor, clique aqui para ver uma versão ampliada desta figura.
Esse sistema oferece previsões explicáveis e proteção à privacidade. Como resultado, é um sistema benéfico para outros sistemas diagnósticos dermatológicos. Esse sistema permite que profissionais de saúde/dermatologistas avaliem a suspeita de lesões e melhorem a precisão diagnóstica e, como resultado, auxiliem profissionais/dermatologistas a diagnosticar pacientes em estágio inicial quando eles podem ter uma doença mais grave (por exemplo, melanoma). Em essência, como mostrado na Figura 9, esse sistema busca trazer para a prática as tecnologias de uso de sistemas de inteligência artificial (IA) de alta tecnologia e implementação de aplicações no mundo real, para ajudar os dermatologistas a diagnosticar pacientes com mais precisão e confiança, garantindo a privacidade e segurança dos pacientes e seu conforto.

Figura 9: Resultados de explicabilidade usando técnicas de interpretabilidade de modelos para classificação de lesões cutâneas multiclasse. (A) Gráfico SHAP mostrando contribuições de características influenciando previsões de lesões benignas e malignas. (B) Explicação LIME para a previsão do BCC, ilustrando as características que contribuem positiva e negativamente para o resultado da classificação. (C) Explicação LIME para a previsão do akiec, destacando as características mais influentes envolvidas no processo de tomada de decisão do modelo. Essas visualizações de interpretabilidade demonstram as regiões e características extraídas que afetam significativamente as previsões do modelo, melhorando a transparência e a compreensão do processo de classificação na avaliação de lesões cutâneas. Por favor, clique aqui para ver uma versão ampliada desta figura.
Estratégia de avaliação
Para evitar viés de amostragem e manter a distribuição original de classes em todas as categorias de lesões cutâneas, o conjunto de dados foi dividido em uma divisão de 80:20 entre trens e testes. O subconjunto de treinamento foi então dividido na razão 90:10 train: validar, ajustar os hiperparâmetros e otimizar o modelo. O conjunto de teste não foi utilizado no processo de treinamento em nenhuma etapa e foi aplicado apenas ao final do processo como teste final para evitar vazamento de dados e garantir uma avaliação de desempenho imparcial. Todos os modelos foram pré-processados e treinados em configurações iguais, os dados foram particionados e aumentados da mesma forma, e os protocolos de avaliação foram aplicados e seguidos da mesma forma, o que permitiu comparações justas e reprodutíveis. Os modelos foram avaliados minuciosamente com base em precisão, exatião, recordação, pontuação F1 e AUC, com uma análise detalhada dos resultados por classe para determinar sua robustez tanto para classes principais quanto para minorias de lesões. Essa ferramenta padronizada de validação ajudaria a aumentar a confiabilidade, transparência e generalização da abordagem proposta, além de superar possíveis inconsistências nos relatórios de desempenho.