Un marco explicable de conjunto multimodal que preserva la privacidad para la clasificación de lesiones cutáneas

Amrita Koul; N. P. Singh

doi:10.3791/71472

Research Article

Un marco explicable de conjunto multimodal que preserva la privacidad para la clasificación de lesiones cutáneas

DOI:

10.3791/71472

⸱

June 12th, 2026

Amrita Koul¹ , N. P. Singh¹

¹Department of Computer Science and Engineering, School of Engineering and Technology, MVN University, Palwal

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El trabajo propuesto tiene como objetivo desarrollar y evaluar una disposición explicable de tejido multimodal que preserve la privacidad para una clasificación precisa de lesiones cutáneas, integrando características de aprendizaje profundo, metadatos clínicos y técnicas de IA explicables para mejorar la precisión diagnóstica, la transparencia y un apoyo fiable a la toma de decisiones clínicas para la detección precoz del cáncer de piel.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Entre las enfermedades dermatológicas, el cáncer de piel es de las más potencialmente mortales. Un diagnóstico temprano y preciso es importante para mejorar el pronóstico del paciente. No obstante, los métodos diagnósticos tradicionales basados en IA enfrentan varios desafíos, incluyendo preocupaciones sobre la privacidad, interpretabilidad limitada y un grave desequilibrio de clases en conjuntos de datos de lesiones cutáneas multiclase. Para superar estos desafíos, el artículo propuesto propone un modelo multimodal de clasificación de lesiones cutáneas explicable y consciente de la privacidad que combina modelos complejos de aprendizaje profundo y un enfoque de modelado conjunto con métodos explicables de inteligencia artificial. La evaluación experimental se realiza utilizando datos de referencia HAM10000 disponibles públicamente sobre la clasificación multiclase de lesiones cutáneas que pueden consultarse mediante Kaggle Hub, distribuidas en siete clases de lesiones clínicamente significativas (akiec, bcc, bkl, df, mel, nv, vasc). Para equilibrar los datos, se utiliza una técnica de equilibrio de clases para impulsar a las minorías. El EfficientNet B4, DenseNet201 y MobileNetv2 se utilizan para extraer representaciones profundas de características, que luego se combinan con metadatos clínicos salientes para crear un espacio de características multimodal robusto. Estas características multimodales se utilizan para entrenar XGBoost, LightGBM, Deep Neural Classifier (DNC), lo que ha resultado en una precisión de clasificación del 92%, 90% y 94% respectivamente. Se aplica una estrategia de ensamble apilado para combinar las salidas de XGBoost, LightGBM y Deep Neural Classifier (DNC), lo que conduce a una mejora en la precisión del 96%. Las técnicas de interpretabilidad del modelo proporcionan explicaciones a nivel de características que aumentan la transparencia. Los hallazgos experimentales demostraron la viabilidad del marco sugerido en términos de eficiencia con la clasificación clínica relevante en la vida real de lesiones cutáneas.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El cáncer de piel representa una carga significativa para la salud global, con tasas de incidencia crecientes reportadas en^{todo el mundo 1}. La radiación artificial se reconoce como un factor principal que contribuye al cáncer de piel, que conduce a mutaciones genéticas que provocan una proliferación celular descontrolada y el desarrollo tumoral en las células de la piel ^1,2_.Los cánceres de piel comprenden un grupo de enfermedades, incluyendo melanoma, carcinoma de células escamosas y carcinoma basocelular (BCC). Las causas, la presentación clínica y los factores pronósticos de estas condiciones varían³. Las enfermedades de la piel se han convertido en un obstáculo para el diagnóstico médico debido a similitudes a nivel de^{píxeles 4}. En 2022, se estimaron 331.722 casos de melanoma (58.667 muertes) y 1,2 millones de casos de NMSC (69.416 muertes) a nivel mundial. Las tasas máximas de incidencia estandarizadas por edad (ASR) para melanoma se situaron en Oceanía (29,78/100.000), Norteamérica (16,3) y Europa (10,43). Sin embargo, la relación mortalidad-incidencia fue más alta en África (0,35) y Asia (0,30) en comparación con Norteamérica y Oceanía (0,02 en ambas), lo que podría reflejar un pronóstico^{peor 1}. En dermatología, el diagnóstico y seguimiento de las lesiones cutáneas se ha basado principalmente en el examen visual y otras evaluaciones no invasivas. No se aplican métodos invasivos porque pueden dañar las lesiones e impedir la realización de un seguimiento clínico del crecimiento de la^{lesión 5}. Las lesiones cutáneas pueden ser de diferentes tipos: melanoma (MEL), dermatofibroma (DF), queratosis actínica e intraepitelial (AKIEC), carcinoma basocelular (BCC), queratosis benigna (BKL), nevo melanocítico (NV) y lesiones vasculares (VASC), según se define en el conjunto de datos^{HAM10000 5}. Los principales retos en la clasificación de imágenes dermatoscópicas son la presencia de cabellos, tintas, marcas de regla, manchas de color, destellos, gotas, burbujas de aceite, vasos sanguíneos, zonas hiperpigmentadas y/o lesiones^{inflamatorias 6}. Anteriormente se han realizado estudios sobre la selección de características y el aprendizaje profundo para la imagen médica y la clasificación de lesiones^cutáneas ^7,8.

También se han investigado enfoques basados en visión por ordenador para el diagnóstico del cáncer de piel y la integración de características artesanales y^{profundas 9}, junto con estrategias de fusión de características para mejorar el rendimiento en la clasificación¹⁰. Los avances recientes enfatizan aún más la integración del aprendizaje automático en los sistemas sanitarios y los marcos de procesamiento seguro de datos^{médicos 11,12}_.La utilización de la atención sanitaria con IA, impulsada por algoritmos computacionales avanzados, tiene el potencial de ofrecer programas de atención integrada personalizados y eficientes, especialmente beneficiosos para pacientes en entornos remotos y en^{domicilio 13}. Mediante la utilización de amplios conjuntos de datos de imágenes dermatoscópicas, los modelos de aprendizaje profundo—especialmente las redes neuronales convolucionales (CNN)—pueden entrenarse para identificar y clasificar con precisión diversas lesiones cutáneas. Varias técnicas muestran resultados sólidos en la segmentación de lesiones cutáneas, incluyendo redes totalmente convolucionales (FCNs), CNNs, CNNs profundas (DCNNs), redes residuales totalmente convolucionales (FCRNs) y arquitecturas U-Net. Las redes neuronales profundas (DNN) no son fácilmente interpretables debido a su arquitectura altamente compleja, por lo que su proceso de toma de decisiones es difícil de comprender^14,15. Los avances recientes en el análisis de imágenes médicas han demostrado que las redes neuronales convolucionales profundas (CNN) mejoran significativamente la eficiencia en las tareas de clasificación de lesiones cutáneas. Varios estudios sobre conjuntos de datos dermoscópicos como HAM10000 han demostrado que las arquitecturas basadas en CNN, incluyendo ResNet, DenseNet y EfficientNet, logran un fuerte rendimiento de clasificación multiclase aprendiendo representaciones jerárquicas de características a partir de imágenes de lesiones. Los enfoques híbridos de fusión de características, donde se combinan múltiples esquemas CNN, han mejorado aún más la precisión diagnóstica al integrar representaciones profundas^{complementarias 16}. Además, estudios actuales han investigado modelos híbridos CNN Transformer en análisis de imágenes médicas. Se ha demostrado que los modelos con transformador visual y extractores de características CNN tienen mejores resultados en tareas de clasificación de lesiones cutáneas porque son más capaces de extraer contenido local de texturas así como relaciones contextuales^{globales 17}. Estos diseños híbridos también se consideran de vanguardia en imagen médica porque tienen una capacidad de aprendizaje de representación equilibrada.

En otras áreas de la medicina, las estrategias de fusión de características se han utilizado ampliamente fuera de la dermatología. Los sistemas híbridos basados en CNN también se han aplicado en el análisis de imágenes histopatológicas para lograr una mejor clasificación del cáncer de pulmón y colon con representaciones de características mejoradas y dinámica de aprendizaje^{espacial 16}. Igualmente, en oftalmología, el uso de modelos de aprendizaje profundo entrenados con representaciones de características fusionadas ha demostrado su aplicación exitosa en la estadificación de imágenes del ojo de ojo por retinopatía diabética, con mejor robustez y precisión de clasificación en una tarea de calificación^{multiclase 18}. Los métodos de fusión multimodales en estos campos sugieren que las representaciones heterogéneas de características ofrecen una mejor generalización y clasificación, especialmente en datos médicos^{desequilibrados 19}.

Aunque se han realizado estas mejoras, las prácticas actuales suelen limitarse a ser multimodales, no integradas, insuficientes para abordar el problema del desequilibrio de clases y poco útiles en la toma de decisiones clínicas. Para superar estos problemas, este artículo presenta un modelo explicable de clasificación de lesiones cutáneas que es respetuoso de la privacidad e integra ambos métodos de interpretabilidad de modelos. Estos métodos de explicabilidad pueden utilizarse para explicar las predicciones del modelo, mostrando qué características son más importantes y destacando áreas significativas de las imágenes dermoscópicas, mejorando la claridad y la confianza en los procedimientos clínicos, mejorando así la transparencia clínica, generando confianza y apoyando la implementación segura de sistemas de IA en la práctica clínica. Existe un desequilibrio significativo en el conjunto de datos de HAM10000, con algunas clases teniendo muchas menos muestras que otras. Para superar este problema, se utiliza la técnica de sobremuestreo de minorías sintéticas (también conocida como balanceo de clases) para generar muestras sintéticas de clases subrepresentadas. Las técnicas de equilibrio de clases equilibran el conjunto de datos, permitiendo que el modelo aprenda mejor de los tipos de lesiones minoritarias, aumentando la sensibilidad y facilitando una predicción más fiable de clases clínicamente significativas pero menos frecuentes de cáncer de piel. Las características profundas de EfficientNet-B4, DenseNet201 y MobileNetV2 se combinan con los metadatos clínicos para formar una representación más informativa de cada lesión cutánea. Esta doble característica nos ayuda a extraer los patrones visuales de imágenes dermoscópicas y otra información del paciente para un análisis más profundo. Las características se entrenan luego con diferentes clasificadores, incluyendo XGBoost, LightGBM y una Red Neuronal Profunda, para mejorar la capacidad y potencia del modelo de clasificación de lesiones cutáneas. El conjunto de los modelos se utiliza con una técnica de conjunto apilado para realzar el modelo. Se trata de un modelo compuesto que aprovecha las fortalezas de múltiples modelos para aprender y beneficiarse de las predicciones de todos los modelos del conjunto, mitigando al mismo tiempo sus limitaciones.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudio utilizó conjuntos de datos dermoscópicos totalmente anonimizados y de acceso público, y no implicó participación humana directa; por lo tanto, no se requería la aprobación del comité ético. La Tabla de Materiales contiene detalles de todos los materiales o herramientas utilizados en este estudio. La Tabla 1 incluye detalles del entorno de hardware y software, como el tipo de procesador, la memoria, el sistema operativo y los marcos de software. La Tabla 2 incluye detalles de la precisión por clase, el recuerdo, la puntuación F1 y el soporte para cada categoría de lesión cutánea.

Flujo de trabajo general del marco propuesto de clasificación multimodal de lesiones cutáneas

El plan general de esta investigación es crear un esquema preciso y comprensible de multiclasificación de lesiones cutáneas. El flujo de trabajo comienza con la recogida de datos y el preprocesamiento del conjunto de datos HAM10000, luego procede a la extracción de características utilizando arquitecturas de aprendizaje profundo e inclusión de metadatos clínicos. Después, se entrenan y optimizan varios clasificadores de aprendizaje automático, y sus resultados se agregan en una estrategia de conjunto. Por último, las predicciones del modelo se interpretan mediante técnicas de explicabilidad, y se evalúa la efectividad del modelo para su uso en el apoyo a la toma de decisiones clínicas en el mundo real.

Para mejorar la precisión predictiva del sistema propuesto, se utiliza una tubería de aprendizaje automático multimodal, que combina tanto características basadas en imágenes como metadatos clínicos (como se muestra en la Figura 1). El modelo puede sumar los resultados visuales de las imágenes dermoscópicas con la información relacionada con el paciente para identificar patrones más detallados relacionados con diversas lesiones cutáneas. Con esta combinación, el sistema puede hacer mejores predicciones, que finalmente lo harán. Mejorar la calidad y utilidad de la clasificación de lesiones cutáneas. Se extraen tres características convolucionales Deep preentrenadas con la ayuda de redes neuronales (EfficientNet-B4, DenseNet201 y MobileNetV2): son capaces de capturar una variedad de patrones complementarios de imágenes dermoscópicas. Estas arquitecturas aprenden patrones de alto nivel en el aspecto de las lesiones cutáneas, como cambios en el color y la textura, y la forma en que están construidas. Luego, un módulo de fusión de características combina las características profundas con las características clínicas y datos demográficos para crear una característica multimodal rica. Los datos combinados se separan entonces en datos de entrenamiento, validación y prueba para asegurar pruebas adecuadas de modelos. A continuación, se utiliza un módulo de fusión de características para fusionar las características profundas con las características clínicas y la demografía, produciendo así una característica multimodal rica. Estos datos se separan en datos de entrenamiento, prueba y validación para probar el modelo. Se utiliza una estrategia de conjunto para mejorar aún más la precisión de las predicciones. Esto se hace promediando los resultados de varios modelos y elaborando la predicción final utilizando esas probabilidades promediadas para mejorar la generalización y minimizar la varianza que de otro modo habrían sido causadas por modelos individuales. Además, también se integran métodos de explicabilidad, como las técnicas de interpretabilidad del modelo, para explicar mejor cómo el modelo toma sus decisiones. El método de interpretabilidad del modelo proporciona interpretaciones a nivel de características cuantificando la contribución de las variables de entrada, mientras que el método de interpretabilidad del modelo identifica áreas importantes dentro de las imágenes dermoscópicas a nivel de píxel que afectan a la predicción. Las técnicas de interpretabilidad del modelo ofrecen explicaciones a nivel de características cuantificando la contribución de cada variable de entrada, mientras que las técnicas de interpretabilidad del modelo destacan regiones importantes a nivel de píxel dentro de las imágenes dermoscópicas que influyen en la predicción. Combinadas, estas técnicas hacen que los modelos sean más interpretables y ayudan a los clínicos a aprender cómo el sistema toma las decisiones. Como resultado, la tubería propuesta proporciona un sistema comprensible y respetuoso con la privacidad, aumentando la transparencia y la confianza y permitiendo un diagnóstico de cáncer de piel más fiable en un entorno sanitario real.

Descripción del conjunto de datos con preparación

En este artículo, el conjunto de datos HAM10000 (Humano contra Máquina con 10.000 imágenes de entrenamiento) se utiliza como el conjunto principal para la clasificación de lesiones cutáneas multiclase. El conjunto de datos contiene más de 10.000 datos dermoscópicos recogidos de diversas fuentes médicas. Fuentes clínicas y poblaciones, lo que la convierte en uno de los conjuntos de datos de referencia más utilizados en el análisis de imágenes dermatológicas. Cada imagen del conjunto de datos va acompañada de metadatos clínicos importantes, incluyendo identificadores de imagen, etiquetas diagnósticas, edad del paciente, sexo y la ubicación anatómica de la lesión. El conjunto de datos abarca siete categorías diagnósticas: queratosas actínicas (akiec), carcinoma basocelular (bcc), queratosis benigna (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesiones vasculares (vasc) y melanoma (mel).

Preprocesamiento de metadatos clínicos

Las características auxiliares añadidas a la cadena de clasificación incluyeron metadatos clínicos, como la edad, el sexo y la ubicación de la lesión en el paciente. Faltaban valores o valores desconocidos, que se trataban mediante un enfoque de preprocesamiento determinista. En el caso de la variable edad (numérica), se utilizó la edad mediana calculada en el conjunto de entrenamiento para imputar los valores que faltan. La razón por la que se eligió la imputación mediana es que es resistente a los valores atípicos y a los datos sesgados, que son prevalentes en los datos clínicos. Para el sexo y la localización de la lesión (variables categóricas), no se excluyeron valores ausentes o no especificados; Se les asignó a una categoría especial etiquetada como 'desconocida'. El método mantiene todas las muestras disponibles y el modelo es libre para determinar si la ausencia en sí misma es predictiva. Posteriormente se aplicó la codificación one-hot a variables categóricas para permitir su compatibilidad con modelos de aprendizaje automático. Todo el preprocesamiento, como la imputación, la codificación, etc., solo se realizaba en el conjunto de entrenamiento, y las mismas transformaciones se realizaban en los conjuntos de validación y experimento para evitar la pérdida de datos. No se excluyeron muestras solo por la falta de metadatos clínicos, lo que garantizó que los datos se utilizaran al máximo y que hubiera coherencia metodológica.

Figura 1: Sistema multimodal para la clasificación de lesiones cutáneas. El enfoque del estudio combina características de imágenes dermoscópicas con metadatos del paciente para clasificar lesiones cutáneas utilizando modelos de aprendizaje profundo en conjunto. El marco incluye preprocesamiento, extracción de características, fusión multimodal y clasificación, lo que permite un mejor rendimiento diagnóstico y interpretabilidad. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

El flujo de trabajo muestra la línea de clasificación sugerida, basada en imágenes dermoscópicas y metadatos clínicos del conjunto de datos de lesiones cutáneas HAM10000. EfficientNet-B4, DenseNet201 y MobileNetV2 se utilizan para preprocesar y extraer características profundas en imágenes. Los metadatos clínicos están codificados y la fusión de características se utiliza para combinar las características de la imagen con los metadatos clínicos. Para abordar el problema del desequilibrio de clases, se utiliza la técnica de balanceo de clases en el espacio de características multimodales fusionadas en lugar de las imágenes en bruto o los flujos individuales de características, donde las muestras sintéticas mantienen la combinación tanto de las características visuales como clínicas y no producen muestras poco realistas. Las características fusionadas se entrenan entonces en clasificadores como XGBoost, LightGBM y un clasificador neural profundo.

Figura 2: Ejemplo de imágenes dermoscópicas de siete grupos diagnósticos diferentes del conjunto de datos HAM10000. Las imágenes muestran características visuales típicas utilizadas en la clasificación automatizada. (A) Queratosas actínicas (akiec), que muestran superficies rugosas con pigmentación irregular. (B) carcinoma basocelular (BCC), con formas y vasos sanguíneos irregulares. (C) Lesiones benignas similares a queratosis (bkl), que muestran características queratóticas con superficies marrón claro. (D) Dermatofibroma (df), con aspecto central similar a cicatriz y pigmentación. (E) Nevos melanocíticos (nv), lunares benignos y relativamente simétricos. (F) Lesiones vasculares (vasca), con un aspecto rojizo-púrpura debido a vasos sanguíneos. (G) Melanoma (mel), que se presenta como una lesión de forma irregular, asimétrica y multipigmentada. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Estas imágenes dermoscópicas revelan la heterogeneidad visual de las lesiones cutáneas, que presentan variaciones en la pigmentación, textura y morfología de la estructura. Estas variaciones suponen un gran desafío para los sistemas de clasificación automatizados y subrayan la importancia de los sistemas basados en aprendizaje profundo. Técnicas de extracción de características sensibles a revelar patrones diagnósticos sutiles. Tras la descripción del conjunto de datos, la Figura 2 ilustra las siete categorías de lesiones cutáneas incluidas en el conjunto de datos HAM10000, que se estudian comúnmente en la investigación de imagen diagnóstica dermatológica. Estas clases incluyen queratosas actínicas (akiec), carcinoma basocelular (bcc), queratosis benigna (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesiones vasculares (vasc) y melanoma (mel⁾²¹. Todos estos tipos de lesiones presentan características visuales únicas, como se muestra en la Figura 3, que incluyen variaciones en los patrones de pigmentación, textura superficial, distribución de color y anomalías a lo largo de los bordes de la lesión. Las características visuales de todas estas lesiones son diferentes y se caracterizan por variaciones en los patrones de pigmentación, textura superficial, distribución de color y anomalías en los bordes de las lesiones. Estas son características importantes que los dermatólogos tendrían en cuenta al realizar el examen clínico, por lo que deben estar bien modeladas mediante modelos de aprendizaje automático para alcanzar la clasificación adecuada. Aunque estas son las características diferenciadoras, muchas de estas lesiones parecen prácticamente idénticas, lo que dificulta diferenciarlas al observar únicamente imágenes dermoscópicas. La distinción entre ciertos tipos de lesiones suele ser extremadamente sutil pero clínicamente pertinente, lo que dificulta clasificarlas automáticamente. Por eso es urgente crear modelos de IA potentes capaces de entrenar imágenes visuales de grano fino y diferencias sutiles en las lesiones entre clases de lesiones. Estas propiedades no solo se verán realzadas por la descripción adecuada, lo que resultará en la mejora de las habilidades discriminativas del modelo con diferentes tipos de lesiones, sino que también ayudará a diagnosticar algunas condiciones peligrosas, como el melanoma, más temprano. Por último, puede mejorar la precisión diagnóstica, informar a los clínicos en la toma de decisiones que mejoran los resultados para los pacientes y ayudar a tomar mejores decisiones.

Figura 3: Distribución por clases de las lesiones cutáneas en el conjunto de datos HAM10000. La figura muestra la distribución de las siete categorías de lesiones consideradas en este estudio: queratosas actínicas (akiec), carcinoma basocelular (bcc), lesiones benignas similares a la queratosis (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesiones vasculares (vasc) y melanoma (mel). Este gráfico ilustra el desequilibrio de clases entre las clases de lesiones. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

El análisis del conjunto de datos muestra que existe un desequilibrio en las clases de los diferentes tipos de lesiones. El tipo más común de nevos melanocíticos (nv), con aproximadamente 6.705 muestras, es el más común, seguido de melanoma (1.113) y queratosis benigna (1.099). Por el contrario, existen algunas formas de lesiones de importancia clínica que están significativamente menos representadas, como el dermatofibroma (115) y las lesiones vasculares (142). Esta desproporción supone una amenaza para los modelos de aprendizaje automático porque pueden tender a favorecer las clases mayoritarias y son incapaces de detectar lesiones inusuales pero clínicamente significativas. Para abordar este problema y mejorar el entrenamiento del modelo en el rendimiento del modelo respecto a todas las clases, se requiere preprocesamiento avanzado. Se necesitan estrategias. Estas incluyen técnicas como la ampliación de datos dirigida y el balanceo de clases. Los datos pueden equilibrarse utilizando la técnica (técnica de equilibrio por clases y ajuste de peso por clase), lo que fomenta que el modelo descubra tendencias sustanciales en las clases subrepresentadas. Los hiperparámetros usados para XGBoost y LightGBM se establecieron principalmente en sus configuraciones predeterminadas, con ajustes menores basados en experimentos preliminares. Para el clasificador neural profundo, se seleccionaron empíricamente parámetros arquitectónicos y de entrenamiento como el número de capas, neuronas, tasa de aprendizaje, tamaño del lote y número de épocas utilizando datos de validación. El conjunto completo de hiperparámetros se proporciona en la Tabla 3. En general, el número de imágenes dermoscópicas utilizadas en el presente estudio es de 10.015 en total. Esto tiene la ventaja de proporcionar una vasta colección de datos para entrenar y probar, y es también un criterio tedioso pero gratificante. Evalúa la eficacia del sistema propuesto de clasificación de lesiones cutáneas.

Preprocesamiento de datos

La cadena de preprocesamiento prepara el conjunto de datos HAM10000 para el aprendizaje multimodal estandarizando imágenes, extrayendo características profundas, integrando metadatos clínicos y abordando el desequilibrio de clases.

Estandarización de imágenes: Todas las imágenes dermoscópicas se redimensionaron a 224 × 224 píxeles y se normalizaron mediante normalización z-score.

Ecuación 1 (1)

Donde represento la imagen en bruto, μ denota la media píxel, y σ es la desviación estándar.

Extracción profunda de características: Se extrajeron características profundas complementarias utilizando tres redes neuronales convolucionales preentrenadas: Efficient-Net B4, DenseNet201, junto con MobileNetV2. Cada red mapea la imagen normalizada a un vector de características.

Ecuación 2 (2)

Las características extraídas se concatenaron para formar una representación unificada:

_{F fusión} =_{F EffB4} ||F_denso ||F_MobV2 (3)

(donde || significa concatenación)

Integración de metadatos clínicos: Los atributos clínicos, incluyendo edad, sexo y localización de la lesión, fueron limpiados, codificados y normalizados mediante escalado min-max:

Ecuación 4 (4)

El vector de metadatos procesado M_clinicalse fusionó con características de imagen para construir la entrada multimodal final:

F_combinado=_{F fusión}_{M clínico} (5)

División de conjuntos de datos: Se aplicó una división estratificada para preservar la distribución de clases

D_tren,_{D prueba}=Split(_{F comido,0.8}) (6)

Gestión del desequilibrio de clase: El conjunto de datos HAM10000 presenta un desequilibrio severo de las clases, donde predominan las muestras de "nevus" (NV) por estar infrarrepresentadas en otros grupos minoritarios, como DF con VASC. Para reducir este problema, se empleó la "Técnica de Sobremuestreo de Minorías Sintéticas" (técnica de equilibrio de clases). Utilizando: Se produjeron nuevas muestras sintéticas como:

x_nuevo=_{x i}+ λ(x_zi-_{x i}) (7)

Ecuación 8

Donde x_i es una muestra de clase minoritaria, x_zi es uno de sus vecinos más cercanos, y λ es un valor aleatorio muestreado de una distribución uniforme entre 0 y 1. La muestra sintética, como se muestra en la Figura 4, se genera a lo largo del segmento de línea que une x sub i.y xent une x_i y_{x zi}.

Figura 4: Distribución de clases en el conjunto de datos de HAM10000 antes/después de aplicar la técnica de balanceo de clases. (A) Antes del equilibrio de clases, con desequilibrio entre clases de lesiones. (B) Después del balanceo de clases en el espacio de características combinado, donde la representación de todas las clases es igual para evitar sesgos en el proceso de entrenamiento del clasificador. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Para abordar el problema del desequilibrio de clases en el conjunto de datos de HAM10000, se aplica la Técnica de Sobremuestreo de Minorías Sintéticas (técnica de equilibrio de clases). La técnica de balanceo de clases genera muestras sintéticas para las clases minoritarias interpolando entre puntos de datos existentes, lo que ayuda a aumentar la representación de categorías de lesiones subrepresentadas. El resultado final de producir más ejemplos de estas clases minoritarias es un conjunto de datos más equilibrado en general, respecto a los siete tipos de lesión. Esta representación equilibrada permitirá que los modelos de clasificación aprendan mejor con cada clase y minimizen el sesgo con las clases mayoritarias. En consecuencia, el modelo es más justo en su clasificación y es más sensible, especialmente a lesiones cutáneas raras pero clínicamente importantes.

Marco de aprendizaje que preserva la privacidad

El sistema sugerido propone un sistema multimodal de clasificación automatizada de lesiones en la piel, respetuoso de la privacidad e interpretable. El objetivo final del sistema es mejorar el rendimiento diagnóstico y, al mismo tiempo, proteger la información sensible del paciente durante todo el proceso de formación. La privacidad del paciente es una necesidad esencial en la práctica médica porque las leyes de privacidad de datos sanitarios y las consideraciones éticas son muy importantes en los entornos sanitarios. Por tanto, el modelo sugerido incluirá un modelo de aprendizaje descentralizado basado en las ideas del aprendizaje federado. En este entorno descentralizado, el entrenamiento con modelos se realiza en un grupo de clientes distribuidos en lugar de agregar todos los datos del paciente en una ubicación centralizada. Todos los clientes participantes entrenan el modelo localmente con sus propios datos, y los datos en bruto de los pacientes no salen del entorno local. Como alternativa a mover historiales médicos sensibles, se envían actualizaciones o parámetros de modelos a un servidor central para ser agregados. Este enfoque cooperativo del aprendizaje permite que las distintas instituciones o fuentes de datos contribuyan al entrenamiento del modelo sin comprometer la privacidad de los datos.

Sea w_t^(k) los parámetros del modelo del k-ésimo cliente en la t-ésima iteración, y sean n_k el tamaño de muestra en ese cliente. La actualización del modelo global se calcula como:

Ecuación 8 (8)

Esta estrategia de agregación garantiza que los clientes con conjuntos de datos más grandes contribuyan proporcionalmente más al modelo global, permitiendo que los clientes más pequeños participen en el proceso de aprendizaje. Al permitir la formación colaborativa sin intercambiar datos en bruto de los pacientes, el marco propuesto mantiene la privacidad mientras se beneficia del conocimiento distribuido entre conjuntos de datos.

Montaje experimental federado

Se diseñó un sistema simulado de aprendizaje federado con el conjunto de datos HAM10000 para confirmar la eficiencia del marco respetuoso de la privacidad ofrecido. Los datos se dividieron en tres clientes para simular un entorno multiinstitucional real con datos no idénticamente distribuidos (no IID). Cada cliente tiene una mezcla variable de clases de lesiones, y esto representa una variación en el mundo entre centros clínicos. La misma cadena multimodal de extracción de características (EfficientNet-B4, DenseNet201, MobileNet V2 y metadatos clínicos) se ejecutaba localmente en cada cliente. En su entrenamiento, los clientes actualizaban sus modelos locales por sí mismos, y los parámetros aprendidos solo se intercambiaban con el servidor central para ser agregados por el algoritmo FedAvg. Se comparó el equilibrio entre la precisión predictiva y la privacidad entre el modelo federado y el enfoque de entrenamiento centralizado para medir el rendimiento de cada uno. Los resultados de las pruebas indicados en la Figura 5 muestran que el modelo federado puede rendir de forma competitiva, con solo una ligera disminución en la precisión respecto al aprendizaje centralizado, y una privacidad de datos mucho mejorada.

Figura 5: Distribución cliente del conjunto de datos HAM10000. Esto muestra la asignación de datos de lesiones cutáneas entre los clientes, demostrando la diversidad en la distribución de datos. Esto demuestra la heterogeneidad de los datos entre los clientes, un aspecto fundamental del aprendizaje federado. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Las distribuciones heterogéneas (no IID) de los pacientes formados en HAM10000 se dividieron en tres grupos para modelar condiciones clínicas reales. La distribución de las diferentes categorías de lesiones dentro de cada cliente es distinta, especialmente la clase de nevus (nv), que no se distribuye de manera uniforme entre los pacientes. Esta disposición refleja las dificultades reales del aprendizaje federado, en las que los datos en las instituciones no están distribuidos de manera uniforme.

Comparación de rendimiento: aprendizaje centralizado vs federado

Para evaluar la efectividad del marco de aprendizaje federado propuesto, se realizó un análisis comparativo entre estrategias de formación centralizadas y federadas utilizando el conjunto de datos HAM10000, como se muestra en la Figura 6. En el entorno centralizado, todas las muestras de datos se agregaban en un único grupo de entrenamiento. El modelo centralizado con mejor rendimiento, el ensamble apilado, alcanzó una precisión global del 96%. En cambio, el entorno federado distribuyó el conjunto de datos entre tres clientes con datos no idénticos (no IID), donde cada cliente entrenó el modelo localmente y solo compartió parámetros usando FedAvg. El modelo federado alcanzó una precisión global de aproximadamente el 94%, lo que corresponde a una diferencia de rendimiento del 2% en comparación con el enfoque centralizado, como se muestra en la Tabla 4. Esta disminución marginal se espera debido a la optimización descentralizada y la distribución heterogénea de datos entre clientes.

Aunque ocurrió este pequeño cambio, el modelo federado seguía haciendo buenas predicciones. En el entrenamiento centralizado, el comportamiento por clase muestra que la mayoría de las clases, como el nevus (nv) (puntuación F1 = 1,00), se mantienen estables, mientras que las clases minoritarias, como el dermatofibroma (df) (puntuación F1 ≈ 0,65–0,66), son más sensibles al desequilibrio de distribución, lo que podría afectar aún más al rendimiento federado. Cabe destacar que la estructura federada minimiza las posibilidades de exponer información sensible de los pacientes, ya que no requiere compartir datos médicos en bruto entre los clientes.

Figura 6: Comparación entre aprendizaje federado y aprendizaje centralizado. Esta figura compara paradigmas de aprendizaje utilizando métricas de rendimiento como precisión, precisión, recuerdo y puntuación F1. Esto demuestra la capacidad del aprendizaje federado para lograr un rendimiento comparable al del enfoque tradicional de aprendizaje, preservando la privacidad. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Los resultados de la Tabla 4 indican que el modelo de aprendizaje federado es capaz de ser competitivo, y la caída en la precisión es solo de aproximadamente un 2% en comparación con el modelo centralizado. Esta ligera reducción puede explicarse por la optimización descentralizada y la distribución de datos no IID. Sin embargo, el modelo federado tiene una enorme ventaja en cuanto a protección de la privacidad, ya que la información sensible de los pacientes no se comparte entre los clientes. Para proporcionar una comparación justa entre el modelo federado y el modelo centralizado de ensambles apilados, el modelo federado se probó con la misma arquitectura e hiperparámetros. El aspecto de preservación de la privacidad que se discute en este estudio es conceptual y pretende destacar la posible integración de técnicas como el aprendizaje federado en trabajos futuros. No se realiza ninguna validación experimental de mecanismos que preserven la privacidad en la implementación actual.

Fusión de características multimodales

El diagnóstico de lesiones cutáneas suele incluir la observación cutánea y la historia clínica. En la mayoría de los casos, los dermatólogos no solo consideran las imágenes dermoscópicas colocándolas en relación con la información del paciente (edad, sexo y ubicación de la lesión) para hacer sus juicios diagnósticos. El sistema propuesto se basa en la inspiración de este flujo de trabajo clínico e incorpora un enfoque multimodal para el aprendizaje que combina datos basados en imágenes y clínicos. Las CNN se entrenan en características profundas de imagen dermoscópica preexistentes. Estas redes reconocen diseños visuales intrincados, incluyendo cambios de color, formas de lesiones, anomalías estructurales y características de texturas. Sin embargo, las características de las imágenes pueden no ser suficientes para reflejar la situación clínica de una lesión. Por tanto, también se incluyen metadatos clínicos relacionados con cada imagen en el aprendizaje. Se creará un módulo de fusión de características que integrará las características de imagen profunda con atributos clínicos procesados e información demográfica. Esta representación compuesta constituye una representación integrada de características multimodales que consiste tanto en información visual como contextual de cada lesión. El modelo puede integrar varias fuentes de datos para obtener patrones complementarios que mejoran la capacidad general de clasificación. La representación multimodal permite al sistema diferenciar de forma más eficaz entre lesiones visualmente similares, así como tener en cuenta los indicadores clínicos. El modelo es más clínicamente significativo y efectivo, ya que es una aproximación más cercana a cómo los dermatólogos estudian las lesiones en la práctica clínica.

Aprendizaje en conjunto apilado
El marco propuesto utiliza una estrategia de aprendizaje en conjunto apilado para mejorar aún más la capacidad predictiva del sistema. El aprendizaje en conjunto es un método compuesto de predicción que utiliza dos o más modelos predictivos para mejorar la generalización y minimizar los errores de predicción que pueden ocurrir con modelos individuales. Los aprendices de múltiples bases se entrenan de forma independiente en la representación multimodal de características en lugar de usar un único clasificador. Todos los aprendices de base proporcionan una estimación de la probabilidad de que una muestra concreta pertenezca a una clase de lesiones concreta. Estas predicciones de probabilidad se agregan a nivel meta. Se asigna un peso a cada aprendiz base para mostrar su importancia relativa en la predicción final. Se utiliza una función de activación softmax para calcular la salida agregada y así generar probabilidades de clase normalizadas. El método del conjunto apilado tiene varias vantaxes. Primero, minimiza la varianza de predicción debido a la combinación de varios modelos y así mejora el rendimiento de la generalización. En segundo lugar, mejora la fuerza ya que varios modelos describen distintas tendencias en los datos. En tercer lugar, el aprendizaje en conjunto mejora la clasificación de las clases de lesiones minoritarias, especialmente en datos médicos, donde ciertas condiciones de interés clínico no son tan prevalentes.

Integración de inteligencia artificial explicable

Los sistemas de IA médica también deberían ofrecer explicaciones claras de sus elecciones, aunque una alta precisión en las predicciones sea fundamental. Para depositar confianza en los sistemas de IA y ser efectivos en su práctica, los clínicos deben ser capaces de comprender cómo un modelo se ajusta al diagnóstico que produce. Para satisfacer esta necesidad, el marco propuesto incorpora métodos de inteligencia artificial explicable (XAI), como se muestra en la Figura 7.

Figura 7: Matrices de confusión de diferentes modelos de clasificación para la clasificación de lesiones cutáneas multiclase. (A) XGBoost, (B) LightGBM, (C) Clasificador Neural Profundo y (D) modelo de conjunto apilado. Cada matriz de confusión muestra la relación entre la clase verdadera (filas) y la clase predicha (columnas) para los siete tipos de lesiones cutáneas: akiec, bcc, bkl, df, mel, nv y vasc. Los modelos XGBoost y LightGBM rinden bien para las clases nv y bkl, aunque hay cierta confusión entre mel y nv. El Clasificador Neural Profundo mejora la clasificación de bkl y df y disminuye la confusión fuera de la diagonal. El modelo de Ensamble Apilado muestra la mayor consistencia en la clasificación, con la diagonal volviéndose cada vez más dominante. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

El sistema incluye dos enfoques populares de explicabilidad (técnica de interpretabilidad del modelo (SHapley Additive Explanations) y técnica de interpretabilidad del modelo (Local Interpretable Interpretable Model-agnostic Explanations)) para ofrecer una visión de lo que predice el modelo. El método de interpretabilidad del modelo explica las características a nivel de características midiendo hasta qué punto cada característica de entrada ha contribuido a la predicción global. Ayuda a determinar qué variables clínicas o cualidades visuales tienen mayor impacto en el resultado de la clasificación. Esto permite a investigadores y clínicos observar el comportamiento general del modelo en todo el conjunto de datos. La técnica de interpretabilidad de modelos, por otro lado, se ocupa de explicaciones locales de predicciones individuales. Enfatiza las áreas de la imagen dermoscópica que tienen mayor impacto en la decisión del modelo. Estas explicaciones visuales a nivel de píxel permiten a los clínicos inspeccionar visualmente las áreas de la lesión que informaron la clasificación. El marco propuesto ofrece interpretabilidad global y local; Se consigue integrando la técnica de interpretabilidad del modelo. El mecanismo de doble explicación mejora la transparencia y permite a los clínicos evaluar si el modelo está dirigido a patrones médicamente significativos.

Potencial de apoyo a la decisión clínica

El aprendizaje que preserva la privacidad, la fusión de características multimodales, el modelado de conjuntos y la IA explicable son componentes clave de un sistema integrado y robusto para la clasificación automática de lesiones cutáneas. Idealmente, el sistema no solo debería tener un alto poder pronóstico, sino también ser transparente y seguro, que son dos factores clave en los sistemas médicos, como se muestra en la Figura 8.

Figura 8: Curvas de características de operación del receptor (ROC) para el modelo de conjunto apilado. (A–C) Esto muestra las curvas ROC para los siete tipos de lesiones cutáneas, con tasa de positivos verdaderos (sensibilidad) y tasa de falsos positivos (1-especificidad). El área bajo la curva (AUC) representa el rendimiento del modelo de ensamble apilado en la discriminación entre las clases. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Este sistema proporciona predicciones explicables y protección de la privacidad. Como resultado, es un sistema beneficioso para otros sistemas diagnósticos dermatológicos. Este sistema permite a los profesionales sanitarios y dermatólogos evaluar la sospecha de lesiones y mejorar la precisión diagnóstica y, como resultado, ayudar a los profesionales y dermatólogos a diagnosticar a los pacientes en una fase temprana cuando pueden tener una enfermedad más grave (por ejemplo, melanoma). En esencia, como se muestra en la Figura 9, este sistema busca poner en práctica las tecnologías de uso de sistemas de inteligencia artificial (IA) de alta tecnología e implementación de aplicaciones del mundo real, para ayudar a los dermatólogos a diagnosticar a los pacientes con mayor precisión y confianza, garantizando al mismo tiempo la privacidad y seguridad de los pacientes y su comodidad.

Figura 9: Resultados de explicabilidad utilizando técnicas de interpretabilidad de modelos para la clasificación de lesiones cutáneas de múltiples clases. (A) Gráfico SHAP que muestra contribuciones de características que influyen en las predicciones de lesiones benignas y malignas. (B) Explicación LIME para la predicción de BCC, ilustrando las características que contribuyen positiva y negativamente al resultado de clasificación. (C) Explicación LIME para la predicción de akiec, destacando las características más influyentes involucradas en el proceso de toma de decisiones del modelo. Estas visualizaciones de interpretabilidad demuestran las regiones y características extraídas que afectan significativamente a las predicciones del modelo, mejorando la transparencia y la comprensión del proceso de clasificación en la evaluación de lesiones cutáneas. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Estrategia de evaluación

Para evitar el sesgo de muestreo y mantener la distribución original de clases en todas las categorías de lesiones cutáneas, el conjunto de datos se dividió en una división 80:20 entre trenes y pruebas. El subconjunto de entrenamiento se dividió entonces en la proporción 90:10 entrenar: validar, ajustar los hiperparámetros y optimizar el modelo. El conjunto de pruebas no se utilizó en ningún momento del proceso de entrenamiento y solo se aplicó al final del proceso como prueba final para evitar fugas de datos y asegurar una evaluación de rendimiento imparcial. Todos los modelos se preprocesaron y entrenaron en igualdad de condiciones, los datos se particionaron y aumentaron de la misma manera, y se aplicaron y siguieron los protocolos de evaluación de la misma manera, lo que permitió comparaciones justas y reproducibles. Los modelos fueron evaluados exhaustivamente en función de la precisión, exactitud, recuerdo, puntuación F1 y AUC, con un análisis detallado de los resultados por clase para determinar su robustez tanto para las clases principales como para las minorías de lesiones. Esta herramienta de validación estandarizada ayudaría a aumentar la fiabilidad, transparencia y generalización del enfoque propuesto, y a superar las posibles inconsistencias en la notificación de resultados.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Se evaluaron cuatro métodos de clasificación (XGBoost, LightGBM, un clasificador neural profundo y un modelo de conjunto apilado) para la clasificación de lesiones cutáneas de clase múltiple. Los modelos alcanzaron precisiones globales del 92%, 90%, 94% y 96%, respectivamente, demostrando que c

Rendimiento por clase

Se proporciona una evaluación detallada por clase, que incluye precisión, recuerdo y puntuación F1 pa...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El protocolo actual describe una cadena reproducible para crear un marco multimodal interpretable, sensible a la privacidad y que clasifique automáticamente las lesiones cutáneas. El protocolo sigue un patrón sistemático de mejora del rendimiento diagnóstico mediante la transparencia del modelo, combinando análisis dermoscópico de imágenes con metadatos clínicos y métodos de aprendizaje automático interpretables. El conjunto de datos de lesiones cutáneas HAM10000 está disponible públicam...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Los autores no tienen nada que revelar. No tenemos conflictos de intereses. Los autores afirman que las herramientas de inteligencia artificial se usaban únicamente para la edición y formateo del lenguaje. Todo el contenido científico, análisis e interpretaciones fueron desarrollados e interpretados por los autores.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Los autores agradecen a la Universidad MVN, Palwal, por proporcionar orientación académica y apoyo en investigación. Los autores también reconocen el conjunto de datos de lesiones cutáneas HAM10000 disponible públicamente, que se utilizó para la evaluación experimental de este estudio.

Access restricted. Please log in or start a trial to view this content.

Materials

```html

List of materials used in this article
Name	Company	Catalog Number	Comments
Arquitectura CNN DenseNet201	IBM	https://arxiv.org/abs/1608.06993	Modelo de aprendizaje profundo para clasificación de imágenes
Arquitectura CNN EfficientNet-B4	Google	https://arxiv.org/abs/1905.11946	Modelo de aprendizaje profundo para clasificación de imágenes
Plataforma Google Colaboratory	Google	https://colab.research.google.com	Entorno computacional basado en la nube
Conjunto de datos de lesiones cutáneas HAM10000	Harvard Dataverse	https://doi.org/10.7910/DVN/DBW86T	Conjunto de imágenes dermatoscópicas
API de aprendizaje profundo Keras	Google	Versión 2.x	API de redes neuronales
Biblioteca de explicabilidad LIME	Proyecto LIME	Versión 0.x	Técnica de interpretabilidad de modelos
Arquitectura CNN MobileNetV2	Google	https://arxiv.org/abs/1801.04381	Modelo de aprendizaje profundo para clasificación de imágenes
Biblioteca de visualización Matplotlib	Equipo de desarrollo de Matplotlib	Versión 3.x	Utilizada para generar gráficos y visualización de rendimiento
GPU de NVIDIA	NVIDIA	Serie RTX	Hardware de computación para el entrenamiento de modelos
Biblioteca de computación numérica NumPy	Desarrolladores de NumPy	Versión 1.x	Software de análisis de datos
Biblioteca de procesamiento de imágenes OpenCV	OpenCV Foundation	Versión 4.x	Biblioteca de procesamiento de imágenes
Biblioteca de análisis de datos Pandas	Equipo de desarrollo de Pandas	Versión 1.x	Software de análisis de datos
Entorno de programación Python	Fundación de software Python	Versión 3.9+	Software de análisis de datos
Biblioteca de explicabilidad SHAP	Proyecto SHAP	Versión 0.x	Técnica de interpretabilidad de modelos
Técnica de sobremuestreo SMOTE	Proyecto imbalanced-learn	Versión 0.x	Técnica de equilibrio de clases para manejar conjuntos de datos desequilibrados
Biblioteca de aprendizaje automático Scikit-learn	Proyecto scikit-learn	Versión 1.x	Biblioteca de aprendizaje automático
Marco de trabajo de aprendizaje profundo TensorFlow	Google	Versión 2.x	Marco de trabajo de aprendizaje profundo

```

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Un marco explicable de conjunto multimodal que preserva la privacidad para la clasificación de lesiones cutáneas

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles