Research Article

Un marco explicable de conjunto multimodal que preserva la privacidad para la clasificación de lesiones cutáneas

June 12th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El trabajo propuesto tiene como objetivo desarrollar y evaluar una disposición explicable de tejido multimodal que preserve la privacidad para una clasificación precisa de lesiones cutáneas, integrando características de aprendizaje profundo, metadatos clínicos y técnicas de IA explicables para mejorar la precisión diagnóstica, la transparencia y un apoyo fiable a la toma de decisiones clínicas para la detección precoz del cáncer de piel.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Entre las enfermedades dermatológicas, el cáncer de piel es de las más potencialmente mortales. Un diagnóstico temprano y preciso es importante para mejorar el pronóstico del paciente. No obstante, los métodos diagnósticos tradicionales basados en IA enfrentan varios desafíos, incluyendo preocupaciones sobre la privacidad, interpretabilidad limitada y un grave desequilibrio de clases en conjuntos de datos de lesiones cutáneas multiclase. Para superar estos desafíos, el artículo propuesto propone un modelo multimodal de clasificación de lesiones cutáneas explicable y consciente de la privacidad que combina modelos complejos de aprendizaje profundo y un enfoque de modelado conjunto con métodos explicables de inteligencia artificial. La evaluación experimental se realiza utilizando datos de referencia HAM10000 disponibles públicamente sobre la clasificación multiclase de lesiones cutáneas que pueden consultarse mediante Kaggle Hub, distribuidas en siete clases de lesiones clínicamente significativas (akiec, bcc, bkl, df, mel, nv, vasc). Para equilibrar los datos, se utiliza una técnica de equilibrio de clases para impulsar a las minorías. El EfficientNet B4, DenseNet201 y MobileNetv2 se utilizan para extraer representaciones profundas de características, que luego se combinan con metadatos clínicos salientes para crear un espacio de características multimodal robusto. Estas características multimodales se utilizan para entrenar XGBoost, LightGBM, Deep Neural Classifier (DNC), lo que ha resultado en una precisión de clasificación del 92%, 90% y 94% respectivamente. Se aplica una estrategia de ensamble apilado para combinar las salidas de XGBoost, LightGBM y Deep Neural Classifier (DNC), lo que conduce a una mejora en la precisión del 96%. Las técnicas de interpretabilidad del modelo proporcionan explicaciones a nivel de características que aumentan la transparencia. Los hallazgos experimentales demostraron la viabilidad del marco sugerido en términos de eficiencia con la clasificación clínica relevante en la vida real de lesiones cutáneas.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El cáncer de piel representa una carga significativa para la salud global, con tasas de incidencia crecientes reportadas entodo el mundo 1. La radiación artificial se reconoce como un factor principal que contribuye al cáncer de piel, que conduce a mutaciones genéticas que provocan una proliferación celular descontrolada y el desarrollo tumoral en las células de la piel 1,2. Los cánceres de piel comprenden un grupo de enfermedades, incluyendo melanoma, carcinoma de células escamosas y carcinoma basocelular (BCC). Las causas, la presentación clínica y los factores pronósticos de estas condiciones varían3. Las enfermedades de la piel se han convertido en un obstáculo para el diagnóstico médico debido a similitudes a nivel depíxeles 4. En 2022, se estimaron 331.722 casos de melanoma (58.667 muertes) y 1,2 millones de casos de NMSC (69.416 muertes) a nivel mundial. Las tasas máximas de incidencia estandarizadas por edad (ASR) para melanoma se situaron en Oceanía (29,78/100.000), Norteamérica (16,3) y Europa (10,43). Sin embargo, la relación mortalidad-incidencia fue más alta en África (0,35) y Asia (0,30) en comparación con Norteamérica y Oceanía (0,02 en ambas), lo que podría reflejar un pronósticopeor 1. En dermatología, el diagnóstico y seguimiento de las lesiones cutáneas se ha basado principalmente en el examen visual y otras evaluaciones no invasivas. No se aplican métodos invasivos porque pueden dañar las lesiones e impedir la realización de un seguimiento clínico del crecimiento de lalesión 5. Las lesiones cutáneas pueden ser de diferentes tipos: melanoma (MEL), dermatofibroma (DF), queratosis actínica e intraepitelial (AKIEC), carcinoma basocelular (BCC), queratosis benigna (BKL), nevo melanocítico (NV) y lesiones vasculares (VASC), según se define en el conjunto de datosHAM10000 5. Los principales retos en la clasificación de imágenes dermatoscópicas son la presencia de cabellos, tintas, marcas de regla, manchas de color, destellos, gotas, burbujas de aceite, vasos sanguíneos, zonas hiperpigmentadas y/o lesionesinflamatorias 6. Anteriormente se han realizado estudios sobre la selección de características y el aprendizaje profundo para la imagen médica y la clasificación de lesionescutáneas 7,8.

También se han investigado enfoques basados en visión por ordenador para el diagnóstico del cáncer de piel y la integración de características artesanales yprofundas 9, junto con estrategias de fusión de características para mejorar el rendimiento en la clasificación10. Los avances recientes enfatizan aún más la integración del aprendizaje automático en los sistemas sanitarios y los marcos de procesamiento seguro de datosmédicos 11,12. La utilización de la atención sanitaria con IA, impulsada por algoritmos computacionales avanzados, tiene el potencial de ofrecer programas de atención integrada personalizados y eficientes, especialmente beneficiosos para pacientes en entornos remotos y endomicilio 13. Mediante la utilización de amplios conjuntos de datos de imágenes dermatoscópicas, los modelos de aprendizaje profundo—especialmente las redes neuronales convolucionales (CNN)—pueden entrenarse para identificar y clasificar con precisión diversas lesiones cutáneas. Varias técnicas muestran resultados sólidos en la segmentación de lesiones cutáneas, incluyendo redes totalmente convolucionales (FCNs), CNNs, CNNs profundas (DCNNs), redes residuales totalmente convolucionales (FCRNs) y arquitecturas U-Net. Las redes neuronales profundas (DNN) no son fácilmente interpretables debido a su arquitectura altamente compleja, por lo que su proceso de toma de decisiones es difícil de comprender14,15. Los avances recientes en el análisis de imágenes médicas han demostrado que las redes neuronales convolucionales profundas (CNN) mejoran significativamente la eficiencia en las tareas de clasificación de lesiones cutáneas. Varios estudios sobre conjuntos de datos dermoscópicos como HAM10000 han demostrado que las arquitecturas basadas en CNN, incluyendo ResNet, DenseNet y EfficientNet, logran un fuerte rendimiento de clasificación multiclase aprendiendo representaciones jerárquicas de características a partir de imágenes de lesiones. Los enfoques híbridos de fusión de características, donde se combinan múltiples esquemas CNN, han mejorado aún más la precisión diagnóstica al integrar representaciones profundascomplementarias 16. Además, estudios actuales han investigado modelos híbridos CNN Transformer en análisis de imágenes médicas. Se ha demostrado que los modelos con transformador visual y extractores de características CNN tienen mejores resultados en tareas de clasificación de lesiones cutáneas porque son más capaces de extraer contenido local de texturas así como relaciones contextualesglobales 17. Estos diseños híbridos también se consideran de vanguardia en imagen médica porque tienen una capacidad de aprendizaje de representación equilibrada.

En otras áreas de la medicina, las estrategias de fusión de características se han utilizado ampliamente fuera de la dermatología. Los sistemas híbridos basados en CNN también se han aplicado en el análisis de imágenes histopatológicas para lograr una mejor clasificación del cáncer de pulmón y colon con representaciones de características mejoradas y dinámica de aprendizajeespacial 16. Igualmente, en oftalmología, el uso de modelos de aprendizaje profundo entrenados con representaciones de características fusionadas ha demostrado su aplicación exitosa en la estadificación de imágenes del ojo de ojo por retinopatía diabética, con mejor robustez y precisión de clasificación en una tarea de calificaciónmulticlase 18. Los métodos de fusión multimodales en estos campos sugieren que las representaciones heterogéneas de características ofrecen una mejor generalización y clasificación, especialmente en datos médicosdesequilibrados 19.

Aunque se han realizado estas mejoras, las prácticas actuales suelen limitarse a ser multimodales, no integradas, insuficientes para abordar el problema del desequilibrio de clases y poco útiles en la toma de decisiones clínicas. Para superar estos problemas, este artículo presenta un modelo explicable de clasificación de lesiones cutáneas que es respetuoso de la privacidad e integra ambos métodos de interpretabilidad de modelos. Estos métodos de explicabilidad pueden utilizarse para explicar las predicciones del modelo, mostrando qué características son más importantes y destacando áreas significativas de las imágenes dermoscópicas, mejorando la claridad y la confianza en los procedimientos clínicos, mejorando así la transparencia clínica, generando confianza y apoyando la implementación segura de sistemas de IA en la práctica clínica. Existe un desequilibrio significativo en el conjunto de datos de HAM10000, con algunas clases teniendo muchas menos muestras que otras. Para superar este problema, se utiliza la técnica de sobremuestreo de minorías sintéticas (también conocida como balanceo de clases) para generar muestras sintéticas de clases subrepresentadas. Las técnicas de equilibrio de clases equilibran el conjunto de datos, permitiendo que el modelo aprenda mejor de los tipos de lesiones minoritarias, aumentando la sensibilidad y facilitando una predicción más fiable de clases clínicamente significativas pero menos frecuentes de cáncer de piel.  Las características profundas de EfficientNet-B4, DenseNet201 y MobileNetV2 se combinan con los metadatos clínicos para formar una representación más informativa de cada lesión cutánea. Esta doble característica nos ayuda a extraer los patrones visuales de imágenes dermoscópicas y otra información del paciente para un análisis más profundo. Las características se entrenan luego con diferentes clasificadores, incluyendo XGBoost, LightGBM y una Red Neuronal Profunda, para mejorar la capacidad y potencia del modelo de clasificación de lesiones cutáneas. El conjunto de los modelos se utiliza con una técnica de conjunto apilado para realzar el modelo. Se trata de un modelo compuesto que aprovecha las fortalezas de múltiples modelos para aprender y beneficiarse de las predicciones de todos los modelos del conjunto, mitigando al mismo tiempo sus limitaciones.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este estudio utilizó conjuntos de datos dermoscópicos totalmente anonimizados y de acceso público, y no implicó participación humana directa; por lo tanto, no se requería la aprobación del comité ético. La Tabla de Materiales contiene detalles de todos los materiales o herramientas utilizados en este estudio. La Tabla 1 incluye detalles del entorno de hardware y software, como el tipo de procesador, la memoria, el sistema operativo y los marcos de software. La Tabla 2 incluye detalles de la precisión por clase, el recuerdo, la puntuación F1 y el soporte para cada categoría de lesión cutánea.

Flujo de trabajo general del marco propuesto de clasificación multimodal de lesiones cutáneas

El plan general de esta investigación es crear un esquema preciso y comprensible de multiclasificación de lesiones cutáneas. El flujo de trabajo comienza con la recogida de datos y el preprocesamiento del conjunto de datos HAM10000, luego procede a la extracción de características utilizando arquitecturas de aprendizaje profundo e inclusión de metadatos clínicos. Después, se entrenan y optimizan varios clasificadores de aprendizaje automático, y sus resultados se agregan en una estrategia de conjunto. Por último, las predicciones del modelo se interpretan mediante técnicas de explicabilidad, y se evalúa la efectividad del modelo para su uso en el apoyo a la toma de decisiones clínicas en el mundo real.

Para mejorar la precisión predictiva del sistema propuesto, se utiliza una tubería de aprendizaje automático multimodal, que combina tanto características basadas en imágenes como metadatos clínicos (como se muestra en la Figura 1). El modelo puede sumar los resultados visuales de las imágenes dermoscópicas con la información relacionada con el paciente para identificar patrones más detallados relacionados con diversas lesiones cutáneas. Con esta combinación, el sistema puede hacer mejores predicciones, que finalmente lo harán. Mejorar la calidad y utilidad de la clasificación de lesiones cutáneas. Se extraen tres características convolucionales Deep preentrenadas con la ayuda de redes neuronales (EfficientNet-B4, DenseNet201 y MobileNetV2): son capaces de capturar una variedad de patrones complementarios de imágenes dermoscópicas. Estas arquitecturas aprenden patrones de alto nivel en el aspecto de las lesiones cutáneas, como cambios en el color y la textura, y la forma en que están construidas. Luego, un módulo de fusión de características combina las características profundas con las características clínicas y datos demográficos para crear una característica multimodal rica. Los datos combinados se separan entonces en datos de entrenamiento, validación y prueba para asegurar pruebas adecuadas de modelos. A continuación, se utiliza un módulo de fusión de características para fusionar las características profundas con las características clínicas y la demografía, produciendo así una característica multimodal rica. Estos datos se separan en datos de entrenamiento, prueba y validación para probar el modelo. Se utiliza una estrategia de conjunto para mejorar aún más la precisión de las predicciones. Esto se hace promediando los resultados de varios modelos y elaborando la predicción final utilizando esas probabilidades promediadas para mejorar la generalización y minimizar la varianza que de otro modo habrían sido causadas por modelos individuales. Además, también se integran métodos de explicabilidad, como las técnicas de interpretabilidad del modelo, para explicar mejor cómo el modelo toma sus decisiones. El método de interpretabilidad del modelo proporciona interpretaciones a nivel de características cuantificando la contribución de las variables de entrada, mientras que el método de interpretabilidad del modelo identifica áreas importantes dentro de las imágenes dermoscópicas a nivel de píxel que afectan a la predicción. Las técnicas de interpretabilidad del modelo ofrecen explicaciones a nivel de características cuantificando la contribución de cada variable de entrada, mientras que las técnicas de interpretabilidad del modelo destacan regiones importantes a nivel de píxel dentro de las imágenes dermoscópicas que influyen en la predicción. Combinadas, estas técnicas hacen que los modelos sean más interpretables y ayudan a los clínicos a aprender cómo el sistema toma las decisiones. Como resultado, la tubería propuesta proporciona un sistema comprensible y respetuoso con la privacidad, aumentando la transparencia y la confianza y permitiendo un diagnóstico de cáncer de piel más fiable en un entorno sanitario real.

Descripción del conjunto de datos con preparación

En este artículo, el conjunto de datos HAM10000 (Humano contra Máquina con 10.000 imágenes de entrenamiento) se utiliza como el conjunto principal para la clasificación de lesiones cutáneas multiclase. El conjunto de datos contiene más de 10.000 datos dermoscópicos recogidos de diversas fuentes médicas. Fuentes clínicas y poblaciones, lo que la convierte en uno de los conjuntos de datos de referencia más utilizados en el análisis de imágenes dermatológicas. Cada imagen del conjunto de datos va acompañada de metadatos clínicos importantes, incluyendo identificadores de imagen, etiquetas diagnósticas, edad del paciente, sexo y la ubicación anatómica de la lesión. El conjunto de datos abarca siete categorías diagnósticas: queratosas actínicas (akiec), carcinoma basocelular (bcc), queratosis benigna (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesiones vasculares (vasc) y melanoma (mel).

Preprocesamiento de metadatos clínicos

Las características auxiliares añadidas a la cadena de clasificación incluyeron metadatos clínicos, como la edad, el sexo y la ubicación de la lesión en el paciente. Faltaban valores o valores desconocidos, que se trataban mediante un enfoque de preprocesamiento determinista. En el caso de la variable edad (numérica), se utilizó la edad mediana calculada en el conjunto de entrenamiento para imputar los valores que faltan. La razón por la que se eligió la imputación mediana es que es resistente a los valores atípicos y a los datos sesgados, que son prevalentes en los datos clínicos. Para el sexo y la localización de la lesión (variables categóricas), no se excluyeron valores ausentes o no especificados; Se les asignó a una categoría especial etiquetada como 'desconocida'. El método mantiene todas las muestras disponibles y el modelo es libre para determinar si la ausencia en sí misma es predictiva. Posteriormente se aplicó la codificación one-hot a variables categóricas para permitir su compatibilidad con modelos de aprendizaje automático. Todo el preprocesamiento, como la imputación, la codificación, etc., solo se realizaba en el conjunto de entrenamiento, y las mismas transformaciones se realizaban en los conjuntos de validación y experimento para evitar la pérdida de datos. No se excluyeron muestras solo por la falta de metadatos clínicos, lo que garantizó que los datos se utilizaran al máximo y que hubiera coherencia metodológica.

figure-protocol-1
Figura 1: Sistema multimodal para la clasificación de lesiones cutáneas. El enfoque del estudio combina características de imágenes dermoscópicas con metadatos del paciente para clasificar lesiones cutáneas utilizando modelos de aprendizaje profundo en conjunto. El marco incluye preprocesamiento, extracción de características, fusión multimodal y clasificación, lo que permite un mejor rendimiento diagnóstico y interpretabilidad. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

El flujo de trabajo muestra la línea de clasificación sugerida, basada en imágenes dermoscópicas y metadatos clínicos del conjunto de datos de lesiones cutáneas HAM10000. EfficientNet-B4, DenseNet201 y MobileNetV2 se utilizan para preprocesar y extraer características profundas en imágenes. Los metadatos clínicos están codificados y la fusión de características se utiliza para combinar las características de la imagen con los metadatos clínicos. Para abordar el problema del desequilibrio de clases, se utiliza la técnica de balanceo de clases en el espacio de características multimodales fusionadas en lugar de las imágenes en bruto o los flujos individuales de características, donde las muestras sintéticas mantienen la combinación tanto de las características visuales como clínicas y no producen muestras poco realistas. Las características fusionadas se entrenan entonces en clasificadores como XGBoost, LightGBM y un clasificador neural profundo.

figure-protocol-2
Figura 2: Ejemplo de imágenes dermoscópicas de siete grupos diagnósticos diferentes del conjunto de datos HAM10000. Las imágenes muestran características visuales típicas utilizadas en la clasificación automatizada. (A) Queratosas actínicas (akiec), que muestran superficies rugosas con pigmentación irregular. (B) carcinoma basocelular (BCC), con formas y vasos sanguíneos irregulares. (C) Lesiones benignas similares a queratosis (bkl), que muestran características queratóticas con superficies marrón claro. (D) Dermatofibroma (df), con aspecto central similar a cicatriz y pigmentación. (E) Nevos melanocíticos (nv), lunares benignos y relativamente simétricos. (F) Lesiones vasculares (vasca), con un aspecto rojizo-púrpura debido a vasos sanguíneos. (G) Melanoma (mel), que se presenta como una lesión de forma irregular, asimétrica y multipigmentada. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Estas imágenes dermoscópicas revelan la heterogeneidad visual de las lesiones cutáneas, que presentan variaciones en la pigmentación, textura y morfología de la estructura. Estas variaciones suponen un gran desafío para los sistemas de clasificación automatizados y subrayan la importancia de los sistemas basados en aprendizaje profundo. Técnicas de extracción de características sensibles a revelar patrones diagnósticos sutiles. Tras la descripción del conjunto de datos, la Figura 2 ilustra las siete categorías de lesiones cutáneas incluidas en el conjunto de datos HAM10000, que se estudian comúnmente en la investigación de imagen diagnóstica dermatológica. Estas clases incluyen queratosas actínicas (akiec), carcinoma basocelular (bcc), queratosis benigna (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesiones vasculares (vasc) y melanoma (mel)21. Todos estos tipos de lesiones presentan características visuales únicas, como se muestra en la Figura 3, que incluyen variaciones en los patrones de pigmentación, textura superficial, distribución de color y anomalías a lo largo de los bordes de la lesión. Las características visuales de todas estas lesiones son diferentes y se caracterizan por variaciones en los patrones de pigmentación, textura superficial, distribución de color y anomalías en los bordes de las lesiones. Estas son características importantes que los dermatólogos tendrían en cuenta al realizar el examen clínico, por lo que deben estar bien modeladas mediante modelos de aprendizaje automático para alcanzar la clasificación adecuada. Aunque estas son las características diferenciadoras, muchas de estas lesiones parecen prácticamente idénticas, lo que dificulta diferenciarlas al observar únicamente imágenes dermoscópicas. La distinción entre ciertos tipos de lesiones suele ser extremadamente sutil pero clínicamente pertinente, lo que dificulta clasificarlas automáticamente. Por eso es urgente crear modelos de IA potentes capaces de entrenar imágenes visuales de grano fino y diferencias sutiles en las lesiones entre clases de lesiones. Estas propiedades no solo se verán realzadas por la descripción adecuada, lo que resultará en la mejora de las habilidades discriminativas del modelo con diferentes tipos de lesiones, sino que también ayudará a diagnosticar algunas condiciones peligrosas, como el melanoma, más temprano. Por último, puede mejorar la precisión diagnóstica, informar a los clínicos en la toma de decisiones que mejoran los resultados para los pacientes y ayudar a tomar mejores decisiones.

figure-protocol-3
Figura 3: Distribución por clases de las lesiones cutáneas en el conjunto de datos HAM10000. La figura muestra la distribución de las siete categorías de lesiones consideradas en este estudio: queratosas actínicas (akiec), carcinoma basocelular (bcc), lesiones benignas similares a la queratosis (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesiones vasculares (vasc) y melanoma (mel). Este gráfico ilustra el desequilibrio de clases entre las clases de lesiones. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

El análisis del conjunto de datos muestra que existe un desequilibrio en las clases de los diferentes tipos de lesiones. El tipo más común de nevos melanocíticos (nv), con aproximadamente 6.705 muestras, es el más común, seguido de melanoma (1.113) y queratosis benigna (1.099). Por el contrario, existen algunas formas de lesiones de importancia clínica que están significativamente menos representadas, como el dermatofibroma (115) y las lesiones vasculares (142). Esta desproporción supone una amenaza para los modelos de aprendizaje automático porque pueden tender a favorecer las clases mayoritarias y son incapaces de detectar lesiones inusuales pero clínicamente significativas. Para abordar este problema y mejorar el entrenamiento del modelo en el rendimiento del modelo respecto a todas las clases, se requiere preprocesamiento avanzado. Se necesitan estrategias. Estas incluyen técnicas como la ampliación de datos dirigida y el balanceo de clases. Los datos pueden equilibrarse utilizando la técnica (técnica de equilibrio por clases y ajuste de peso por clase), lo que fomenta que el modelo descubra tendencias sustanciales en las clases subrepresentadas. Los hiperparámetros usados para XGBoost y LightGBM se establecieron principalmente en sus configuraciones predeterminadas, con ajustes menores basados en experimentos preliminares. Para el clasificador neural profundo, se seleccionaron empíricamente parámetros arquitectónicos y de entrenamiento como el número de capas, neuronas, tasa de aprendizaje, tamaño del lote y número de épocas utilizando datos de validación. El conjunto completo de hiperparámetros se proporciona en la Tabla 3. En general, el número de imágenes dermoscópicas utilizadas en el presente estudio es de 10.015 en total. Esto tiene la ventaja de proporcionar una vasta colección de datos para entrenar y probar, y es también un criterio tedioso pero gratificante. Evalúa la eficacia del sistema propuesto de clasificación de lesiones cutáneas.

Preprocesamiento de datos

La cadena de preprocesamiento prepara el conjunto de datos HAM10000 para el aprendizaje multimodal estandarizando imágenes, extrayendo características profundas, integrando metadatos clínicos y abordando el desequilibrio de clases.

Estandarización de imágenes: Todas las imágenes dermoscópicas se redimensionaron a 224 × 224 píxeles y se normalizaron mediante normalización z-score.

figure-protocol-4 (1)

Donde represento la imagen en bruto, μ denota la media píxel, y σ es la desviación estándar.

Extracción profunda de características: Se extrajeron características profundas complementarias utilizando tres redes neuronales convolucionales preentrenadas: Efficient-Net B4, DenseNet201, junto con MobileNetV2. Cada red mapea la imagen normalizada a un vector de características.

figure-protocol-5(2)

Las características extraídas se concatenaron para formar una representación unificada:

F fusión =F EffB4 ||Fdenso ||FMobV2 (3)

(donde || significa concatenación)

Integración de metadatos clínicos: Los atributos clínicos, incluyendo edad, sexo y localización de la lesión, fueron limpiados, codificados y normalizados mediante escalado min-max:

figure-protocol-6 (4)

El vector de metadatos procesado Mclinical se fusionó con características de imagen para construir la entrada multimodal final:

Fcombinado=F fusiónM clínico (5)

División de conjuntos de datos: Se aplicó una división estratificada para preservar la distribución de clases

Dtren,D prueba=Split(F comido,0.8) (6)

Gestión del desequilibrio de clase: El conjunto de datos HAM10000 presenta un desequilibrio severo de las clases, donde predominan las muestras de "nevus" (NV) por estar infrarrepresentadas en otros grupos minoritarios, como DF con VASC. Para reducir este problema, se empleó la "Técnica de Sobremuestreo de Minorías Sintéticas" (técnica de equilibrio de clases). Utilizando: Se produjeron nuevas muestras sintéticas como:

xnuevo=x i + λ(xzi -x i) (7)

figure-protocol-7

Donde xi es una muestra de clase minoritaria, xzi es uno de sus vecinos más cercanos, y λ es un valor aleatorio muestreado de una distribución uniforme entre 0 y 1. La muestra sintética, como se muestra en la Figura 4, se genera a lo largo del segmento de línea que une x sub i.y xent une xi yx zi.

figure-protocol-8
Figura 4: Distribución de clases en el conjunto de datos de HAM10000 antes/después de aplicar la técnica de balanceo de clases. (A) Antes del equilibrio de clases, con desequilibrio entre clases de lesiones. (B) Después del balanceo de clases en el espacio de características combinado, donde la representación de todas las clases es igual para evitar sesgos en el proceso de entrenamiento del clasificador. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Para abordar el problema del desequilibrio de clases en el conjunto de datos de HAM10000, se aplica la Técnica de Sobremuestreo de Minorías Sintéticas (técnica de equilibrio de clases). La técnica de balanceo de clases genera muestras sintéticas para las clases minoritarias interpolando entre puntos de datos existentes, lo que ayuda a aumentar la representación de categorías de lesiones subrepresentadas. El resultado final de producir más ejemplos de estas clases minoritarias es un conjunto de datos más equilibrado en general, respecto a los siete tipos de lesión. Esta representación equilibrada permitirá que los modelos de clasificación aprendan mejor con cada clase y minimizen el sesgo con las clases mayoritarias. En consecuencia, el modelo es más justo en su clasificación y es más sensible, especialmente a lesiones cutáneas raras pero clínicamente importantes.

Marco de aprendizaje que preserva la privacidad

El sistema sugerido propone un sistema multimodal de clasificación automatizada de lesiones en la piel, respetuoso de la privacidad e interpretable. El objetivo final del sistema es mejorar el rendimiento diagnóstico y, al mismo tiempo, proteger la información sensible del paciente durante todo el proceso de formación. La privacidad del paciente es una necesidad esencial en la práctica médica porque las leyes de privacidad de datos sanitarios y las consideraciones éticas son muy importantes en los entornos sanitarios. Por tanto, el modelo sugerido incluirá un modelo de aprendizaje descentralizado basado en las ideas del aprendizaje federado. En este entorno descentralizado, el entrenamiento con modelos se realiza en un grupo de clientes distribuidos en lugar de agregar todos los datos del paciente en una ubicación centralizada. Todos los clientes participantes entrenan el modelo localmente con sus propios datos, y los datos en bruto de los pacientes no salen del entorno local. Como alternativa a mover historiales médicos sensibles, se envían actualizaciones o parámetros de modelos a un servidor central para ser agregados. Este enfoque cooperativo del aprendizaje permite que las distintas instituciones o fuentes de datos contribuyan al entrenamiento del modelo sin comprometer la privacidad de los datos.

Sea wt(k) los parámetros del modelo del k-ésimo cliente en la t-ésima iteración, y sean nk el tamaño de muestra en ese cliente. La actualización del modelo global se calcula como:

figure-protocol-9 (8)

Esta estrategia de agregación garantiza que los clientes con conjuntos de datos más grandes contribuyan proporcionalmente más al modelo global, permitiendo que los clientes más pequeños participen en el proceso de aprendizaje. Al permitir la formación colaborativa sin intercambiar datos en bruto de los pacientes, el marco propuesto mantiene la privacidad mientras se beneficia del conocimiento distribuido entre conjuntos de datos.

Montaje experimental federado

Se diseñó un sistema simulado de aprendizaje federado con el conjunto de datos HAM10000 para confirmar la eficiencia del marco respetuoso de la privacidad ofrecido. Los datos se dividieron en tres clientes para simular un entorno multiinstitucional real con datos no idénticamente distribuidos (no IID). Cada cliente tiene una mezcla variable de clases de lesiones, y esto representa una variación en el mundo entre centros clínicos. La misma cadena multimodal de extracción de características (EfficientNet-B4, DenseNet201, MobileNet V2 y metadatos clínicos) se ejecutaba localmente en cada cliente. En su entrenamiento, los clientes actualizaban sus modelos locales por sí mismos, y los parámetros aprendidos solo se intercambiaban con el servidor central para ser agregados por el algoritmo FedAvg. Se comparó el equilibrio entre la precisión predictiva y la privacidad entre el modelo federado y el enfoque de entrenamiento centralizado para medir el rendimiento de cada uno. Los resultados de las pruebas indicados en la Figura 5 muestran que el modelo federado puede rendir de forma competitiva, con solo una ligera disminución en la precisión respecto al aprendizaje centralizado, y una privacidad de datos mucho mejorada.

figure-protocol-10
Figura 5: Distribución cliente del conjunto de datos HAM10000. Esto muestra la asignación de datos de lesiones cutáneas entre los clientes, demostrando la diversidad en la distribución de datos. Esto demuestra la heterogeneidad de los datos entre los clientes, un aspecto fundamental del aprendizaje federado. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Las distribuciones heterogéneas (no IID) de los pacientes formados en HAM10000 se dividieron en tres grupos para modelar condiciones clínicas reales. La distribución de las diferentes categorías de lesiones dentro de cada cliente es distinta, especialmente la clase de nevus (nv), que no se distribuye de manera uniforme entre los pacientes. Esta disposición refleja las dificultades reales del aprendizaje federado, en las que los datos en las instituciones no están distribuidos de manera uniforme.

Comparación de rendimiento: aprendizaje centralizado vs federado

Para evaluar la efectividad del marco de aprendizaje federado propuesto, se realizó un análisis comparativo entre estrategias de formación centralizadas y federadas utilizando el conjunto de datos HAM10000, como se muestra en la Figura 6. En el entorno centralizado, todas las muestras de datos se agregaban en un único grupo de entrenamiento. El modelo centralizado con mejor rendimiento, el ensamble apilado, alcanzó una precisión global del 96%. En cambio, el entorno federado distribuyó el conjunto de datos entre tres clientes con datos no idénticos (no IID), donde cada cliente entrenó el modelo localmente y solo compartió parámetros usando FedAvg. El modelo federado alcanzó una precisión global de aproximadamente el 94%, lo que corresponde a una diferencia de rendimiento del 2% en comparación con el enfoque centralizado, como se muestra en la Tabla 4. Esta disminución marginal se espera debido a la optimización descentralizada y la distribución heterogénea de datos entre clientes.

Aunque ocurrió este pequeño cambio, el modelo federado seguía haciendo buenas predicciones. En el entrenamiento centralizado, el comportamiento por clase muestra que la mayoría de las clases, como el nevus (nv) (puntuación F1 = 1,00), se mantienen estables, mientras que las clases minoritarias, como el dermatofibroma (df) (puntuación F1 ≈ 0,65–0,66), son más sensibles al desequilibrio de distribución, lo que podría afectar aún más al rendimiento federado. Cabe destacar que la estructura federada minimiza las posibilidades de exponer información sensible de los pacientes, ya que no requiere compartir datos médicos en bruto entre los clientes.

figure-protocol-11
Figura 6: Comparación entre aprendizaje federado y aprendizaje centralizado. Esta figura compara paradigmas de aprendizaje utilizando métricas de rendimiento como precisión, precisión, recuerdo y puntuación F1. Esto demuestra la capacidad del aprendizaje federado para lograr un rendimiento comparable al del enfoque tradicional de aprendizaje, preservando la privacidad. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Los resultados de la Tabla 4 indican que el modelo de aprendizaje federado es capaz de ser competitivo, y la caída en la precisión es solo de aproximadamente un 2% en comparación con el modelo centralizado. Esta ligera reducción puede explicarse por la optimización descentralizada y la distribución de datos no IID. Sin embargo, el modelo federado tiene una enorme ventaja en cuanto a protección de la privacidad, ya que la información sensible de los pacientes no se comparte entre los clientes. Para proporcionar una comparación justa entre el modelo federado y el modelo centralizado de ensambles apilados, el modelo federado se probó con la misma arquitectura e hiperparámetros. El aspecto de preservación de la privacidad que se discute en este estudio es conceptual y pretende destacar la posible integración de técnicas como el aprendizaje federado en trabajos futuros. No se realiza ninguna validación experimental de mecanismos que preserven la privacidad en la implementación actual.

Fusión de características multimodales

El diagnóstico de lesiones cutáneas suele incluir la observación cutánea y la historia clínica. En la mayoría de los casos, los dermatólogos no solo consideran las imágenes dermoscópicas colocándolas en relación con la información del paciente (edad, sexo y ubicación de la lesión) para hacer sus juicios diagnósticos. El sistema propuesto se basa en la inspiración de este flujo de trabajo clínico e incorpora un enfoque multimodal para el aprendizaje que combina datos basados en imágenes y clínicos. Las CNN se entrenan en características profundas de imagen dermoscópica preexistentes. Estas redes reconocen diseños visuales intrincados, incluyendo cambios de color, formas de lesiones, anomalías estructurales y características de texturas. Sin embargo, las características de las imágenes pueden no ser suficientes para reflejar la situación clínica de una lesión. Por tanto, también se incluyen metadatos clínicos relacionados con cada imagen en el aprendizaje. Se creará un módulo de fusión de características que integrará las características de imagen profunda con atributos clínicos procesados e información demográfica. Esta representación compuesta constituye una representación integrada de características multimodales que consiste tanto en información visual como contextual de cada lesión. El modelo puede integrar varias fuentes de datos para obtener patrones complementarios que mejoran la capacidad general de clasificación. La representación multimodal permite al sistema diferenciar de forma más eficaz entre lesiones visualmente similares, así como tener en cuenta los indicadores clínicos. El modelo es más clínicamente significativo y efectivo, ya que es una aproximación más cercana a cómo los dermatólogos estudian las lesiones en la práctica clínica.

Aprendizaje en conjunto apilado
El marco propuesto utiliza una estrategia de aprendizaje en conjunto apilado para mejorar aún más la capacidad predictiva del sistema. El aprendizaje en conjunto es un método compuesto de predicción que utiliza dos o más modelos predictivos para mejorar la generalización y minimizar los errores de predicción que pueden ocurrir con modelos individuales. Los aprendices de múltiples bases se entrenan de forma independiente en la representación multimodal de características en lugar de usar un único clasificador. Todos los aprendices de base proporcionan una estimación de la probabilidad de que una muestra concreta pertenezca a una clase de lesiones concreta. Estas predicciones de probabilidad se agregan a nivel meta. Se asigna un peso a cada aprendiz base para mostrar su importancia relativa en la predicción final. Se utiliza una función de activación softmax para calcular la salida agregada y así generar probabilidades de clase normalizadas. El método del conjunto apilado tiene varias vantaxes. Primero, minimiza la varianza de predicción debido a la combinación de varios modelos y así mejora el rendimiento de la generalización. En segundo lugar, mejora la fuerza ya que varios modelos describen distintas tendencias en los datos. En tercer lugar, el aprendizaje en conjunto mejora la clasificación de las clases de lesiones minoritarias, especialmente en datos médicos, donde ciertas condiciones de interés clínico no son tan prevalentes.

Integración de inteligencia artificial explicable

Los sistemas de IA médica también deberían ofrecer explicaciones claras de sus elecciones, aunque una alta precisión en las predicciones sea fundamental. Para depositar confianza en los sistemas de IA y ser efectivos en su práctica, los clínicos deben ser capaces de comprender cómo un modelo se ajusta al diagnóstico que produce. Para satisfacer esta necesidad, el marco propuesto incorpora métodos de inteligencia artificial explicable (XAI), como se muestra en la Figura 7.

figure-protocol-12
Figura 7: Matrices de confusión de diferentes modelos de clasificación para la clasificación de lesiones cutáneas multiclase. (A) XGBoost, (B) LightGBM, (C) Clasificador Neural Profundo y (D) modelo de conjunto apilado. Cada matriz de confusión muestra la relación entre la clase verdadera (filas) y la clase predicha (columnas) para los siete tipos de lesiones cutáneas: akiec, bcc, bkl, df, mel, nv y vasc. Los modelos XGBoost y LightGBM rinden bien para las clases nv y bkl, aunque hay cierta confusión entre mel y nv. El Clasificador Neural Profundo mejora la clasificación de bkl y df y disminuye la confusión fuera de la diagonal. El modelo de Ensamble Apilado muestra la mayor consistencia en la clasificación, con la diagonal volviéndose cada vez más dominante. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

El sistema incluye dos enfoques populares de explicabilidad (técnica de interpretabilidad del modelo (SHapley Additive Explanations) y técnica de interpretabilidad del modelo (Local Interpretable Interpretable Model-agnostic Explanations)) para ofrecer una visión de lo que predice el modelo. El método de interpretabilidad del modelo explica las características a nivel de características midiendo hasta qué punto cada característica de entrada ha contribuido a la predicción global. Ayuda a determinar qué variables clínicas o cualidades visuales tienen mayor impacto en el resultado de la clasificación. Esto permite a investigadores y clínicos observar el comportamiento general del modelo en todo el conjunto de datos. La técnica de interpretabilidad de modelos, por otro lado, se ocupa de explicaciones locales de predicciones individuales. Enfatiza las áreas de la imagen dermoscópica que tienen mayor impacto en la decisión del modelo. Estas explicaciones visuales a nivel de píxel permiten a los clínicos inspeccionar visualmente las áreas de la lesión que informaron la clasificación. El marco propuesto ofrece interpretabilidad global y local; Se consigue integrando la técnica de interpretabilidad del modelo. El mecanismo de doble explicación mejora la transparencia y permite a los clínicos evaluar si el modelo está dirigido a patrones médicamente significativos.

Potencial de apoyo a la decisión clínica

El aprendizaje que preserva la privacidad, la fusión de características multimodales, el modelado de conjuntos y la IA explicable son componentes clave de un sistema integrado y robusto para la clasificación automática de lesiones cutáneas. Idealmente, el sistema no solo debería tener un alto poder pronóstico, sino también ser transparente y seguro, que son dos factores clave en los sistemas médicos, como se muestra en la Figura 8.

figure-protocol-13
Figura 8: Curvas de características de operación del receptor (ROC) para el modelo de conjunto apilado. (A–C) Esto muestra las curvas ROC para los siete tipos de lesiones cutáneas, con tasa de positivos verdaderos (sensibilidad) y tasa de falsos positivos (1-especificidad). El área bajo la curva (AUC) representa el rendimiento del modelo de ensamble apilado en la discriminación entre las clases. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Este sistema proporciona predicciones explicables y protección de la privacidad. Como resultado, es un sistema beneficioso para otros sistemas diagnósticos dermatológicos. Este sistema permite a los profesionales sanitarios y dermatólogos evaluar la sospecha de lesiones y mejorar la precisión diagnóstica y, como resultado, ayudar a los profesionales y dermatólogos a diagnosticar a los pacientes en una fase temprana cuando pueden tener una enfermedad más grave (por ejemplo, melanoma). En esencia, como se muestra en la Figura 9, este sistema busca poner en práctica las tecnologías de uso de sistemas de inteligencia artificial (IA) de alta tecnología e implementación de aplicaciones del mundo real, para ayudar a los dermatólogos a diagnosticar a los pacientes con mayor precisión y confianza, garantizando al mismo tiempo la privacidad y seguridad de los pacientes y su comodidad.

figure-protocol-14
Figura 9: Resultados de explicabilidad utilizando técnicas de interpretabilidad de modelos para la clasificación de lesiones cutáneas de múltiples clases. (A) Gráfico SHAP que muestra contribuciones de características que influyen en las predicciones de lesiones benignas y malignas. (B) Explicación LIME para la predicción de BCC, ilustrando las características que contribuyen positiva y negativamente al resultado de clasificación. (C) Explicación LIME para la predicción de akiec, destacando las características más influyentes involucradas en el proceso de toma de decisiones del modelo. Estas visualizaciones de interpretabilidad demuestran las regiones y características extraídas que afectan significativamente a las predicciones del modelo, mejorando la transparencia y la comprensión del proceso de clasificación en la evaluación de lesiones cutáneas. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Estrategia de evaluación

Para evitar el sesgo de muestreo y mantener la distribución original de clases en todas las categorías de lesiones cutáneas, el conjunto de datos se dividió en una división 80:20 entre trenes y pruebas. El subconjunto de entrenamiento se dividió entonces en la proporción 90:10 entrenar: validar, ajustar los hiperparámetros y optimizar el modelo. El conjunto de pruebas no se utilizó en ningún momento del proceso de entrenamiento y solo se aplicó al final del proceso como prueba final para evitar fugas de datos y asegurar una evaluación de rendimiento imparcial. Todos los modelos se preprocesaron y entrenaron en igualdad de condiciones, los datos se particionaron y aumentaron de la misma manera, y se aplicaron y siguieron los protocolos de evaluación de la misma manera, lo que permitió comparaciones justas y reproducibles. Los modelos fueron evaluados exhaustivamente en función de la precisión, exactitud, recuerdo, puntuación F1 y AUC, con un análisis detallado de los resultados por clase para determinar su robustez tanto para las clases principales como para las minorías de lesiones. Esta herramienta de validación estandarizada ayudaría a aumentar la fiabilidad, transparencia y generalización del enfoque propuesto, y a superar las posibles inconsistencias en la notificación de resultados.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Se evaluaron cuatro métodos de clasificación (XGBoost, LightGBM, un clasificador neural profundo y un modelo de conjunto apilado) para la clasificación de lesiones cutáneas de clase múltiple. Los modelos alcanzaron precisiones globales del 92%, 90%, 94% y 96%, respectivamente, demostrando que c

Rendimiento por clase

Se proporciona una evaluación detallada por clase, que incluye precisión, recuerdo y puntuación F1 para cada categoría de lesión. Para la clase akiec (soporte = 65), el conjunto apilado alcanzó una precisión de 0,72, un recuerdo de 0,73 y una puntuación F1 de 0,72, mejorando ligeramente sobre XGBoost (F1 = 0,70), LightGBM (F1 = 0,68) y el clasificador neural profundo (F1 = 0,71). Para bcc (soporte = 103), el conjunto apilado obtuvo precisión = 0,87, recuerdo = 0,84 y puntuación F1 = 0,85, comparable a XGBoost (F1 = 0,83) y LightGBM (F1 = 0,81), y ligeramente superior al clasificador neural profundo (F1 = 0,84). Para bkl (soporte = 220), el conjunto apilado logró precisión = 0,93, recuerdo = 0,85 y puntuación F1 = 0,89, superando a XGBoost (F1 = 0,87), LightGBM (F1 = 0,86) y el clasificador neural profundo (F1 = 0,88). Para df (soporte = 23), el rendimiento se mantuvo relativamente bajo en todos los modelos. El conjunto apilado reportó precisión = 0,67, recuerdo = 0,66 y puntuación F1 = 0,66, similar a XGBoost (F1 = 0,65), LightGBM (F1 = 0,63) y el clasificador neural profundo (F1 = 0,65).

Para mel (soporte = 223), el conjunto apilado logró precisión = 0,66, recuerdo = 0,97 y puntuación F1 = 0,78. El Clasificador Neural Profundo también muestra un alto recuerdo (0,96) para el melanoma pero una precisión relativamente menor (~0,66), lo que indica un mayor número de falsos positivos. Esto pone de manifiesto que, aunque la sensibilidad para la detección de melanoma es alta en todos los modelos, la precisión sigue siendo comparativamente menor. Para la clase nv (soporte = 1341), todos los modelos demostraron un rendimiento de clasificación del 100%, con precisión, recuerdo y puntuaciones F1 iguales a 1,00, destacando el rendimiento consistentemente alto en la clase mayoritaria. Para vasc (soporte = 28), el conjunto apilado logró precisión = 1,00, recuerdo = 0,93 y puntuación F1 = 0,96, comparable al clasificador neural profundo (F1 = 0,96) y ligeramente superior a XGBoost (F1 = 0,95) y LightGBM (F1 = 0,94).

Comparación de modelos

El modelo de conjunto apilado tuvo un rendimiento similar o mejor en todas las métricas en comparación con los modelos individuales. Es importante destacar que el aumento en la detección de melanoma se refleja en un mayor recuerdo (0,97), lo que sugiere una mejora en la sensibilidad del modelo a casos importantes. La disminución del rendimiento de las clases minoritarias (df, 23 muestras; akiec, 65 muestras) indica la influencia de la distribución de clases en el rendimiento del modelo. De manera crucial, la precisión global se calcula en todas las muestras y se ve afectada por el desequilibrio de clases, predominando la clase nv (soporte = 1341). Por tanto, las fluctuaciones en la precisión o en el recuerdo de las clases minoritarias no explican los valores de precisión reportados.

Comparación con métodos existentes

Para comparar el rendimiento del sistema propuesto, presentamos una comparación con métodos anteriores en las Tablas 5 y 6. El marco propuesto de ensambles apilados rinde a la par con los enfoques previamente reportados, con una precisión del 96%. Además, el modelo propuesto también ofrece integración y explicabilidad de características multimodales, que no siempre se consideran en otros enfoques. Los valores de rendimiento reportados se basan en los resultados reportados en los artículos originales y pueden diferir debido a diferentes divisiones de conjuntos de datos y métodos de evaluación.

Observación clave

El 94% es el rendimiento global de todas las clases, y está influenciado por la clase mayoritaria (nv, soporte = 1341). Por lo tanto, el rendimiento de las clases minoritarias (por ejemplo, df, precisión mel) no significa que esto sea inconsistente con la precisión global reportada. El conjunto apilado logró la mayor precisión (96%) con buen rendimiento de las clases. El aumento en la precisión de las diferentes clases (por ejemplo, el recuerdo de melanoma) sugiere además que el uso de enfoques de multimodelado mejora el rendimiento predictivo de la clasificación de lesiones cutáneas multiclase.

Esto se prueba aún más comparando el enfoque propuesto con los modelos de última generación del conjunto de datos ISIC 2019. El análisis del rendimiento de las arquitecturas de aprendizaje profundo ampliamente utilizadas, como ResNet50, EfficientNet-B0, DenseNet121 y el método propuesto de ensambles apilados, se realizó con los modelos base. Cada modelo se probó con las mismas condiciones experimentales, lo que los hacía comparables entre sí. Los resultados, mostrados en la Tabla 6, muestran que el modelo propuesto supera a los modelos existentes en todas las métricas de evaluación. El modelo de conjunto apilado propuesto alcanza una mayor precisión del 96% y un valor AUC de 0,970 en comparación con otros modelos tradicionales de aprendizaje automático y de aprendizaje profundo, como se muestra en la Tabla 6. En cuanto a la captura de diversas representaciones de características, modelos como EfficientNet-B0 y DenseNet121 muestran un rendimiento base sólido cuando se les da una imagen, pero son insuficientes para manejar estas tareas por sí solos. Por otro lado, el método de conjunto se aplica con éxito para combinar varios modelos y garantiza una mejor generalización y robustez. Además, el método propuesto es consistentemente mejor en términos de precisión, recuerdo y puntuación F1, lo que sugiere que es robusto en varias categorías con una capacidad prometedora para ser utilizado en la práctica clínica real. Para facilitar la reproducibilidad, la transparencia y la comparación fiable de todos los modelos, los experimentos se llevaron a cabo siguiendo un protocolo estándar, con una variedad de criterios de rendimiento y las mismas condiciones de validación.

DISPONIBILIDAD DE DATOS:

El conjunto de datos HAM10000 de lesiones cutáneas utilizado en este estudio está disponible públicamente a través de Kaggle en https://www.kaggle.com/datasets/kmader/skin-cancer-mnist-ham10000. El código fuente y los archivos de implementación utilizados para el preprocesamiento de datos, entrenamiento de modelos, evaluación y análisis se han proporcionado como material complementario junto con la presentación del manuscrito.

CONFIGURACIÓN DEL ENTORNO PARA EL DESARROLLO DE MODELOS
ComponenteEspecificaciones
Entorno de cómputoBusca en Google Colab (Nivel Gratuito)
CPUCPU de 2 núcleos @ 2,20 GHz
GPUNVIDIA T4 / P100
RAM12 GB
Sistema operativoUbuntu 22.04
Versión en PythonPython 3.10
Modelos de aprendizaje profundoEfficientNet B4, DenseNet201, MobileNetV2
ClasificadoresXGBoost, LightGBM, DNC, Conjunto Apilado
Bibliotecas CentralesTensorFlow 2.12, Keras 2.12, NumPy, Pandas
Herramientas de explicabilidadTIMA, CAL
Balanceo de datosSMOTE

Tabla 1: Configuración del sistema. Se utiliza para el desarrollo y evaluación de modelos. Incluye detalles del entorno hardware y de software, como el tipo de procesador, la memoria, el sistema operativo y los marcos de software.

INFORMES DETALLADOS DE CLASIFICACIÓN PARA LA PREDICCIÓN DE LESIONES CUTÁNEAS DE MÚLTIPLES CLASES
ClasePrecisiónRevocaciónPuntuación de F1Apoyo
XGBoost (Precisión: 92%)
Akiec0.700.710.7065
BCC0.850.820.83103
BKL0.910.830.87220
df0.650.650.6523
mel0.630.950.76223
nv1.001.001.001341
VASC1.000.910.9528
LightGBM (Precisión : 90%)
Akiec0.680.690.6865
BCC0.830.800.81103
BKL0.900.820.86220
df0.630.630.6323
mel0.620.940.75223
nv1.001.001.001341
VASC0.990.900.9428
Clasificador Neural Profundo (Precisión: 94%)
Akiec0.950.90.9265
BCC0.90.940.92103
BKL0.970.920.94220
df0.990.960.9723
mel0.990.90.94223
nv0.140.860.241341
VASC0.100.860.1828
Conjunto apilado (Precisión: 96%)
Akiec0.720.730.7265
BCC0.870.840.85103
BKL0.930.850.89220
df0.670.660.6623
mel0.660.970.78223
nv1.001.001.001341
VASC1.000.930.9628

Tabla 2: Métricas detalladas de rendimiento en clasificación para la predicción de lesiones cutáneas multi-clase en todos los modelos. Esta tabla presenta la precisión por clase, la recuperación, la puntuación F1 y el soporte para cada categoría de lesión cutánea.

ModeloHiperparámetroValor
XGBoostRitmo de aprendizajeDefault (0.3)
Número de árboles (n_estimators)100
Profundidad máxima6
Submuestra1
Colsample_bytree1
Objetivomulti:softmax
Métrica de evaluaciónmlogloss
LightGBMRitmo de aprendizajePredeterminado (0.1)
Número de árboles (n_estimators)100
Profundidad máxima-1
Número de hojas31
Fracción de características1
Fracción de envase1
ObjetivoMulticlase
Métricamulti_logloss
Clasificador Neural ProfundoNúmero de capas3 Capas densas
Neuronas por capa256, 128, 64
Función de activaciónReLU
Activación de salidaSoftmax
OptimizadorAdam
Ritmo de aprendizaje0.001
Tamaño del lote32
Número de épocas30
Abandono0.5
Función de pérdidaCrossentropía categórica

Tabla 3: Configuración de hiperparámetros. Ajustes de hiperparámetros usados para entrenar los modelos, incluyendo la tasa de aprendizaje, el tamaño del lote, el número de épocas y las configuraciones del optimizador.

Modelo centralizado vs federado
Estrategia de entrenamientoCentralizado (conjunto apilado)Modelo FederadoDiferencia (Δ)
Precisión (%)96942

Tabla 4: Comparación de aprendizaje centralizado vs. federado. Comparación entre enfoques de aprendizaje centralizado y federado en términos de rendimiento, privacidad y características computacionales.

Ref. ArtículoMétodoTipo de modeloAñoRendimiento reportadoContribución clave
[2]Marco CNN para la detección del cáncer de pielCNN2020Alta precisión (~90%+)Clasificación temprana basada en CNN
[4]Diagnóstico de melanoma mediante aprendizaje profundoCNN2021Mejora en el rendimiento de la clasificaciónAnálisis dermoscópico de imágenes
[8]CNN optimizado con puntos de controlCNN2023Precisión mejorada (~92–94%)Estrategia de optimización de modelos
[9]Deep Learning + XAI FrameworkCNN + Explicabilidad2023Mejor interpretabilidadIntegración XAI
[10]Secciones combinadas de CNNCNN2023Rendimiento competitivo (~90%+)Combinación de características
[18]SkinSage XAICNN + XAI2023Mejora de la confianza y la interpretabilidadSistema de IA explicable
Esta obraEnsamble Apilado + Multimodal + XAIConjunto96%Conjunto + interpretabilidad + conciencia de la privacidad

Tabla 5: Comparación con los métodos existentes. Comparación del rendimiento del método propuesto con los métodos de última generación existentes utilizando métricas estándar de evaluación.

Modelos de última generación
ModeloConjunto de datosPrecisiónPrecisiónRevocaciónPuntuación F1AUC
ResNet50ISIC 20190.8420.8350.8280.8310.912
EfficientNet-B0ISIC 20190.8740.8680.8610.8640.935
DenseNet121ISIC 20190.8610.8540.8480.8510.926
XGBoostISIC 20190.920.9050.8920.8980.948
LightGBMISIC 20190.90.8890.880.8840.94
Clasificador Neural ProfundoISIC 20190.940.9050.890.8920.95
Conjunto Apilado PropuestoISIC 20190.960.940.930.9350.97

Tabla 6: Comparación con modelos de última generación. Evaluación comparativa del modelo de ensamble apilado con otras arquitecturas de última generación en el conjunto de datos ISIC 2019. La precisión, exactitud, recuerdo, F1-Score y AUC se utilizan para medir el rendimiento. El modelo propuesto supera a otros modelos, demostrando así su eficacia en la clasificación multiclase de lesiones cutáneas.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

El protocolo actual describe una cadena reproducible para crear un marco multimodal interpretable, sensible a la privacidad y que clasifique automáticamente las lesiones cutáneas. El protocolo sigue un patrón sistemático de mejora del rendimiento diagnóstico mediante la transparencia del modelo, combinando análisis dermoscópico de imágenes con metadatos clínicos y métodos de aprendizaje automático interpretables. El conjunto de datos de lesiones cutáneas HAM10000 está disponible públicamente y permite la evaluación estandarizada y facilita la reproducibilidad de investigaciones posteriores en el campo de la investigación dermatológica de imagen16. El paso de preprocesamiento y normalización de imágenes es uno de los más importantes del protocolo, ya que garantiza que las imágenes dermoscópicas se estandarizan antes de la extracción de características y el entrenamiento de un modelo. Los artefactos que pueden estar presentes en imágenes dermoscópicas incluyen iluminación desigual, bloqueo del cabello o ruido de fondo, que pueden influir en el rendimiento de los modelos. Redimensionar las imágenes a una resolución fija y normalizar puede reducir estas diferencias, y el modelo puede centrarse en lesiones de interés desde una perspectiva clínica, como patrones de pigmentación, bordes irregulares y asimetría. Los sistemas dermatológicos basados en aprendizaje profundo requieren un preprocesamiento adecuado para ofrecer un rendimiento fiable, como se ha demostrado en investigaciones anteriores sobre la clasificación automatizada del cáncer de piel2.

El flujo de trabajo de extracción profunda de características basado en múltiples arquitecturas de redes neuronales convolucionales (CNN) también es una parte importante de este proceso. En este procedimiento, se emplean EfficientNet-B4, DenseNet201 y MobileNetV2 para aprender características complementarias en imágenes dermoscópicas. Estas arquitecturas tienen diferentes ventajas en términos de características y costes computacionales. El protocolo propuesto puede extraer características utilizando múltiples modelos y luego fusionarlas para obtener patrones globales de lesiones, así como características específicas de las morfologías de lesiones que pueden ser útiles para identificar lesiones benignas y malignas. También existe una etapa multimodal de fusión de características. El diagnóstico clínico en dermatología suele incluir información clínica visual y contextual (edad y género del paciente, y lugar de la lesión). La arquitectura fusiona características dermoscópicas de la imagen con información contextual para añadir un contexto diagnóstico a los modelos puramente basados en imágenes. Es un enfoque multimodal más práctico y mejora el sistema de clasificación.

El protocolo también incorpora técnicas de inteligencia artificial explicable (XAI), en particular la técnica de interpretabilidad de modelos, para explicar las predicciones de los modelos de clasificación. La explicabilidad es esencial para los sistemas de IA médica, ya que los clínicos deben conocer la razón de ser de las predicciones automatizadas para incluirlas en sus procesos diagnósticos. Las técnicas de interpretabilidad del modelo generan importancia global de las características midiendo el impacto de cada característica en las predicciones del modelo, mientras que las técnicas de interpretabilidad del modelo ofrecen explicaciones locales mostrando las regiones de la imagen que contribuyen a las predicciones del modelo. Estas herramientas de interpretabilidad ayudan a verificar que el modelo se centra en estructuras clínicamente relevantes en lugar de correlaciones espurias, mejorando así la confianza y la transparencia en los sistemas diagnósticos asistidos por IA20.

Existen varias variaciones en el protocolo que pueden aplicarse, dependiendo del conjunto de datos utilizado o del entorno computacional. Un problema típico con los datos dermatológicos es el desequilibrio de clases, donde el número de muestras por categoría de lesión varía considerablemente. El conjunto de datos HAM10000 tiene una proporción mucho mayor de nevos benignos que otras categorías de lesiones. Este desequilibrio podría mitigarse mediante técnicas de sobremuestreo como la Técnica de Sobremuestreo de Minorías Sintéticas (SMOTE), que puede generar datos sintéticos de minorías para categorías de lesiones raras. Otras estrategias, como el aumento de datos, la ponderación por clases o la pérdida focal, también pueden ayudar a aumentar la precisión del modelo en tipos de lesiones menos comunes.

Aunque el marco propuesto ofrece varios beneficios, tiene algunas limitaciones. El modelo se entrena con el conjunto de datos HAM10000, que puede no cubrir todos los posibles escenarios de imagen, fenótipos cutáneos o grupos étnicos encontrados en dermatología. Por ello, es importante validar el marco utilizando conjuntos de datos externos para evaluar su rendimiento de generalización. Además, incorporar múltiples modelos de aprendizaje profundo y aprendizaje en conjunto aumenta la huella computacional del modelo y puede resultar un reto en entornos clínicos con recursos limitados.

El marco, tal y como se presenta, ofrece varios avances respecto a los métodos convencionales de aprendizaje profundo que utilizan únicamente imágenes. La integración de datos multimodales proporciona información más rica y el aprendizaje en conjunto aumenta la robustez del modelo al agregar predicciones de diversos clasificadores. Además, la aplicación de técnicas de IA explicables ofrece interpretabilidad en la toma de decisiones, lo cual es una preocupación para los modelos de aprendizaje profundo en el ámbito médico. Los conocimientos de técnicas experimentales de dermatología informan este protocolo al enfatizar los flujos de trabajo de imagen y análisis reproducibles esenciales para la investigación biológica. Los enfoques avanzados de imagen, incluidos modelos cutáneos tridimensionales y procedimientos de imagen dermoscópica, proporcionan una comprensión más profunda de la estructura cutánea y los mecanismos de las enfermedades, apoyando así el diseño y la mejora de herramientas diagnósticascomputacionales 21,22.

El enfoque descrito en este protocolo puede aplicarse de diversas maneras en la investigación dermatológica y en entornos clínicos. Este enfoque podría ayudar a desarrollar sistemas de diagnóstico asistido por ordenador para la detección temprana de melanoma y otras afecciones cutáneas, ayudar a los médicos a navegar por grandes bases de datos de imágenes cutáneas y ser utilizado como parte de sistemas de teledermatología, permitiendo a los médicos consultar a dermatólogos de forma remota. Además, la explicabilidad y las características que preservan la privacidad del sistema permiten que se utilice en un entorno de investigación médica en IA multiinstitucional donde múltiples instituciones comparten datos y garantizan la privacidad. La investigación futura podría incluir la incorporación de conjuntos de datos más grandes y multiinstitucionales, la incorporación de características clínicas adicionales y la exploración de otras técnicas que preservan la privacidad, como el aprendizaje federado, que aquí se menciona como una extensión conceptual. Además, la falta de un estudio de ablación que compare modelos multimodales con modelos solo de imagen y solo metadatos es una limitación y se abordará en futuros trabajos para evaluar el papel de cada fuente de datos.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Los autores no tienen nada que revelar. No tenemos conflictos de intereses. Los autores afirman que las herramientas de inteligencia artificial se usaban únicamente para la edición y formateo del lenguaje. Todo el contenido científico, análisis e interpretaciones fueron desarrollados e interpretados por los autores.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Los autores agradecen a la Universidad MVN, Palwal, por proporcionar orientación académica y apoyo en investigación. Los autores también reconocen el conjunto de datos de lesiones cutáneas HAM10000 disponible públicamente, que se utilizó para la evaluación experimental de este estudio.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Arquitectura CNN DenseNet201IBMhttps://arxiv.org/abs/1608.06993Modelo de aprendizaje profundo para clasificación de imágenes
Arquitectura CNN EfficientNet-B4Googlehttps://arxiv.org/abs/1905.11946Modelo de aprendizaje profundo para clasificación de imágenes
Plataforma de Colaboratorios de GoogleGooglehttps://colab.research.google.comEntorno computacional basado en la nube
HAM10000 Conjunto de datos de lesiones cutáneasHarvard Dataversehttps://doi.org/10.7910/DVN/DBW86TConjunto de datos de imágenes dermoscópicas
API de Aprendizaje Profundo de KerasGoogleVersión 2.xAPI de redes neuronales
Biblioteca de Explicabilidad LIMEProyecto LIMEVersión 0.xTécnica de interpretabilidad del modelo
Arquitectura CNN de MobileNetV2Googlehttps://arxiv.org/abs/1801.04381Modelo de aprendizaje profundo para clasificación de imágenes
Biblioteca de Visualización MatplotlibEquipo de Desarrollo de MatplotlibVersión 3.xUtilizado para generar gráficos y visualización de rendimiento
NVIDIA GPUNVIDIASerie RTXHardware computacional para entrenamiento de modelos
Biblioteca de Computación Numérica NumPyDesarrolladores NumPyVersión 1.xSoftware de análisis de datos
Biblioteca de Procesamiento de Imágenes OpenCVFundación OpenCVVersión 4.xBiblioteca de procesamiento de imágenes
Biblioteca de Análisis de Datos PandasEquipo de Desarrollo PandasVersión 1.xSoftware de análisis de datos
Entorno de programación PythonFundación de Software PythonVersión 3.9+Software de análisis de datos
Biblioteca de Explicabilidad SHAPProyecto SHAPVersión 0.xTécnica de interpretabilidad del modelo
Técnica de sobremuestreo SMOTEProyecto de aprendizaje desequilibradoVersión 0.xTécnica de balanceo de clases para manejar conjuntos de datos desequilibrados
Biblioteca de Aprendizaje Automático Scikit-LearnProyecto scikit-learnVersión 1.xBiblioteca de aprendizaje automático
Marco de Aprendizaje Profundo TensorFlowGoogleVersión 2.xMarco de aprendizaje profundo

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Skin Lesion ClassificationMultimodal EnsembleExplainable AIPrivacy PreservingDeep Learning ModelsClass BalancingEfficientNet B4Clinical MetadataXGBoost ClassifierModel Interpretability

Related Articles