$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Este estudio utilizó conjuntos de datos dermoscópicos totalmente anonimizados y de acceso público, y no implicó participación humana directa; por lo tanto, no se requería la aprobación del comité ético. La Tabla de Materiales contiene detalles de todos los materiales o herramientas utilizados en este estudio. La Tabla 1 incluye detalles del entorno de hardware y software, como el tipo de procesador, la memoria, el sistema operativo y los marcos de software. La Tabla 2 incluye detalles de la precisión por clase, el recuerdo, la puntuación F1 y el soporte para cada categoría de lesión cutánea.
Flujo de trabajo general del marco propuesto de clasificación multimodal de lesiones cutáneas
El plan general de esta investigación es crear un esquema preciso y comprensible de multiclasificación de lesiones cutáneas. El flujo de trabajo comienza con la recogida de datos y el preprocesamiento del conjunto de datos HAM10000, luego procede a la extracción de características utilizando arquitecturas de aprendizaje profundo e inclusión de metadatos clínicos. Después, se entrenan y optimizan varios clasificadores de aprendizaje automático, y sus resultados se agregan en una estrategia de conjunto. Por último, las predicciones del modelo se interpretan mediante técnicas de explicabilidad, y se evalúa la efectividad del modelo para su uso en el apoyo a la toma de decisiones clínicas en el mundo real.
Para mejorar la precisión predictiva del sistema propuesto, se utiliza una tubería de aprendizaje automático multimodal, que combina tanto características basadas en imágenes como metadatos clínicos (como se muestra en la Figura 1). El modelo puede sumar los resultados visuales de las imágenes dermoscópicas con la información relacionada con el paciente para identificar patrones más detallados relacionados con diversas lesiones cutáneas. Con esta combinación, el sistema puede hacer mejores predicciones, que finalmente lo harán. Mejorar la calidad y utilidad de la clasificación de lesiones cutáneas. Se extraen tres características convolucionales Deep preentrenadas con la ayuda de redes neuronales (EfficientNet-B4, DenseNet201 y MobileNetV2): son capaces de capturar una variedad de patrones complementarios de imágenes dermoscópicas. Estas arquitecturas aprenden patrones de alto nivel en el aspecto de las lesiones cutáneas, como cambios en el color y la textura, y la forma en que están construidas. Luego, un módulo de fusión de características combina las características profundas con las características clínicas y datos demográficos para crear una característica multimodal rica. Los datos combinados se separan entonces en datos de entrenamiento, validación y prueba para asegurar pruebas adecuadas de modelos. A continuación, se utiliza un módulo de fusión de características para fusionar las características profundas con las características clínicas y la demografía, produciendo así una característica multimodal rica. Estos datos se separan en datos de entrenamiento, prueba y validación para probar el modelo. Se utiliza una estrategia de conjunto para mejorar aún más la precisión de las predicciones. Esto se hace promediando los resultados de varios modelos y elaborando la predicción final utilizando esas probabilidades promediadas para mejorar la generalización y minimizar la varianza que de otro modo habrían sido causadas por modelos individuales. Además, también se integran métodos de explicabilidad, como las técnicas de interpretabilidad del modelo, para explicar mejor cómo el modelo toma sus decisiones. El método de interpretabilidad del modelo proporciona interpretaciones a nivel de características cuantificando la contribución de las variables de entrada, mientras que el método de interpretabilidad del modelo identifica áreas importantes dentro de las imágenes dermoscópicas a nivel de píxel que afectan a la predicción. Las técnicas de interpretabilidad del modelo ofrecen explicaciones a nivel de características cuantificando la contribución de cada variable de entrada, mientras que las técnicas de interpretabilidad del modelo destacan regiones importantes a nivel de píxel dentro de las imágenes dermoscópicas que influyen en la predicción. Combinadas, estas técnicas hacen que los modelos sean más interpretables y ayudan a los clínicos a aprender cómo el sistema toma las decisiones. Como resultado, la tubería propuesta proporciona un sistema comprensible y respetuoso con la privacidad, aumentando la transparencia y la confianza y permitiendo un diagnóstico de cáncer de piel más fiable en un entorno sanitario real.
Descripción del conjunto de datos con preparación
En este artículo, el conjunto de datos HAM10000 (Humano contra Máquina con 10.000 imágenes de entrenamiento) se utiliza como el conjunto principal para la clasificación de lesiones cutáneas multiclase. El conjunto de datos contiene más de 10.000 datos dermoscópicos recogidos de diversas fuentes médicas. Fuentes clínicas y poblaciones, lo que la convierte en uno de los conjuntos de datos de referencia más utilizados en el análisis de imágenes dermatológicas. Cada imagen del conjunto de datos va acompañada de metadatos clínicos importantes, incluyendo identificadores de imagen, etiquetas diagnósticas, edad del paciente, sexo y la ubicación anatómica de la lesión. El conjunto de datos abarca siete categorías diagnósticas: queratosas actínicas (akiec), carcinoma basocelular (bcc), queratosis benigna (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesiones vasculares (vasc) y melanoma (mel).
Preprocesamiento de metadatos clínicos
Las características auxiliares añadidas a la cadena de clasificación incluyeron metadatos clínicos, como la edad, el sexo y la ubicación de la lesión en el paciente. Faltaban valores o valores desconocidos, que se trataban mediante un enfoque de preprocesamiento determinista. En el caso de la variable edad (numérica), se utilizó la edad mediana calculada en el conjunto de entrenamiento para imputar los valores que faltan. La razón por la que se eligió la imputación mediana es que es resistente a los valores atípicos y a los datos sesgados, que son prevalentes en los datos clínicos. Para el sexo y la localización de la lesión (variables categóricas), no se excluyeron valores ausentes o no especificados; Se les asignó a una categoría especial etiquetada como 'desconocida'. El método mantiene todas las muestras disponibles y el modelo es libre para determinar si la ausencia en sí misma es predictiva. Posteriormente se aplicó la codificación one-hot a variables categóricas para permitir su compatibilidad con modelos de aprendizaje automático. Todo el preprocesamiento, como la imputación, la codificación, etc., solo se realizaba en el conjunto de entrenamiento, y las mismas transformaciones se realizaban en los conjuntos de validación y experimento para evitar la pérdida de datos. No se excluyeron muestras solo por la falta de metadatos clínicos, lo que garantizó que los datos se utilizaran al máximo y que hubiera coherencia metodológica.

Figura 1: Sistema multimodal para la clasificación de lesiones cutáneas. El enfoque del estudio combina características de imágenes dermoscópicas con metadatos del paciente para clasificar lesiones cutáneas utilizando modelos de aprendizaje profundo en conjunto. El marco incluye preprocesamiento, extracción de características, fusión multimodal y clasificación, lo que permite un mejor rendimiento diagnóstico y interpretabilidad. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
El flujo de trabajo muestra la línea de clasificación sugerida, basada en imágenes dermoscópicas y metadatos clínicos del conjunto de datos de lesiones cutáneas HAM10000. EfficientNet-B4, DenseNet201 y MobileNetV2 se utilizan para preprocesar y extraer características profundas en imágenes. Los metadatos clínicos están codificados y la fusión de características se utiliza para combinar las características de la imagen con los metadatos clínicos. Para abordar el problema del desequilibrio de clases, se utiliza la técnica de balanceo de clases en el espacio de características multimodales fusionadas en lugar de las imágenes en bruto o los flujos individuales de características, donde las muestras sintéticas mantienen la combinación tanto de las características visuales como clínicas y no producen muestras poco realistas. Las características fusionadas se entrenan entonces en clasificadores como XGBoost, LightGBM y un clasificador neural profundo.

Figura 2: Ejemplo de imágenes dermoscópicas de siete grupos diagnósticos diferentes del conjunto de datos HAM10000. Las imágenes muestran características visuales típicas utilizadas en la clasificación automatizada. (A) Queratosas actínicas (akiec), que muestran superficies rugosas con pigmentación irregular. (B) carcinoma basocelular (BCC), con formas y vasos sanguíneos irregulares. (C) Lesiones benignas similares a queratosis (bkl), que muestran características queratóticas con superficies marrón claro. (D) Dermatofibroma (df), con aspecto central similar a cicatriz y pigmentación. (E) Nevos melanocíticos (nv), lunares benignos y relativamente simétricos. (F) Lesiones vasculares (vasca), con un aspecto rojizo-púrpura debido a vasos sanguíneos. (G) Melanoma (mel), que se presenta como una lesión de forma irregular, asimétrica y multipigmentada. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
Estas imágenes dermoscópicas revelan la heterogeneidad visual de las lesiones cutáneas, que presentan variaciones en la pigmentación, textura y morfología de la estructura. Estas variaciones suponen un gran desafío para los sistemas de clasificación automatizados y subrayan la importancia de los sistemas basados en aprendizaje profundo. Técnicas de extracción de características sensibles a revelar patrones diagnósticos sutiles. Tras la descripción del conjunto de datos, la Figura 2 ilustra las siete categorías de lesiones cutáneas incluidas en el conjunto de datos HAM10000, que se estudian comúnmente en la investigación de imagen diagnóstica dermatológica. Estas clases incluyen queratosas actínicas (akiec), carcinoma basocelular (bcc), queratosis benigna (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesiones vasculares (vasc) y melanoma (mel)21. Todos estos tipos de lesiones presentan características visuales únicas, como se muestra en la Figura 3, que incluyen variaciones en los patrones de pigmentación, textura superficial, distribución de color y anomalías a lo largo de los bordes de la lesión. Las características visuales de todas estas lesiones son diferentes y se caracterizan por variaciones en los patrones de pigmentación, textura superficial, distribución de color y anomalías en los bordes de las lesiones. Estas son características importantes que los dermatólogos tendrían en cuenta al realizar el examen clínico, por lo que deben estar bien modeladas mediante modelos de aprendizaje automático para alcanzar la clasificación adecuada. Aunque estas son las características diferenciadoras, muchas de estas lesiones parecen prácticamente idénticas, lo que dificulta diferenciarlas al observar únicamente imágenes dermoscópicas. La distinción entre ciertos tipos de lesiones suele ser extremadamente sutil pero clínicamente pertinente, lo que dificulta clasificarlas automáticamente. Por eso es urgente crear modelos de IA potentes capaces de entrenar imágenes visuales de grano fino y diferencias sutiles en las lesiones entre clases de lesiones. Estas propiedades no solo se verán realzadas por la descripción adecuada, lo que resultará en la mejora de las habilidades discriminativas del modelo con diferentes tipos de lesiones, sino que también ayudará a diagnosticar algunas condiciones peligrosas, como el melanoma, más temprano. Por último, puede mejorar la precisión diagnóstica, informar a los clínicos en la toma de decisiones que mejoran los resultados para los pacientes y ayudar a tomar mejores decisiones.

Figura 3: Distribución por clases de las lesiones cutáneas en el conjunto de datos HAM10000. La figura muestra la distribución de las siete categorías de lesiones consideradas en este estudio: queratosas actínicas (akiec), carcinoma basocelular (bcc), lesiones benignas similares a la queratosis (bkl), dermatofibroma (df), nevos melanocíticos (nv), lesiones vasculares (vasc) y melanoma (mel). Este gráfico ilustra el desequilibrio de clases entre las clases de lesiones. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
El análisis del conjunto de datos muestra que existe un desequilibrio en las clases de los diferentes tipos de lesiones. El tipo más común de nevos melanocíticos (nv), con aproximadamente 6.705 muestras, es el más común, seguido de melanoma (1.113) y queratosis benigna (1.099). Por el contrario, existen algunas formas de lesiones de importancia clínica que están significativamente menos representadas, como el dermatofibroma (115) y las lesiones vasculares (142). Esta desproporción supone una amenaza para los modelos de aprendizaje automático porque pueden tender a favorecer las clases mayoritarias y son incapaces de detectar lesiones inusuales pero clínicamente significativas. Para abordar este problema y mejorar el entrenamiento del modelo en el rendimiento del modelo respecto a todas las clases, se requiere preprocesamiento avanzado. Se necesitan estrategias. Estas incluyen técnicas como la ampliación de datos dirigida y el balanceo de clases. Los datos pueden equilibrarse utilizando la técnica (técnica de equilibrio por clases y ajuste de peso por clase), lo que fomenta que el modelo descubra tendencias sustanciales en las clases subrepresentadas. Los hiperparámetros usados para XGBoost y LightGBM se establecieron principalmente en sus configuraciones predeterminadas, con ajustes menores basados en experimentos preliminares. Para el clasificador neural profundo, se seleccionaron empíricamente parámetros arquitectónicos y de entrenamiento como el número de capas, neuronas, tasa de aprendizaje, tamaño del lote y número de épocas utilizando datos de validación. El conjunto completo de hiperparámetros se proporciona en la Tabla 3. En general, el número de imágenes dermoscópicas utilizadas en el presente estudio es de 10.015 en total. Esto tiene la ventaja de proporcionar una vasta colección de datos para entrenar y probar, y es también un criterio tedioso pero gratificante. Evalúa la eficacia del sistema propuesto de clasificación de lesiones cutáneas.
Preprocesamiento de datos
La cadena de preprocesamiento prepara el conjunto de datos HAM10000 para el aprendizaje multimodal estandarizando imágenes, extrayendo características profundas, integrando metadatos clínicos y abordando el desequilibrio de clases.
Estandarización de imágenes: Todas las imágenes dermoscópicas se redimensionaron a 224 × 224 píxeles y se normalizaron mediante normalización z-score.
(1)
Donde represento la imagen en bruto, μ denota la media píxel, y σ es la desviación estándar.
Extracción profunda de características: Se extrajeron características profundas complementarias utilizando tres redes neuronales convolucionales preentrenadas: Efficient-Net B4, DenseNet201, junto con MobileNetV2. Cada red mapea la imagen normalizada a un vector de características.
(2)
Las características extraídas se concatenaron para formar una representación unificada:
F fusión =F EffB4 ||Fdenso ||FMobV2 (3)
(donde || significa concatenación)
Integración de metadatos clínicos: Los atributos clínicos, incluyendo edad, sexo y localización de la lesión, fueron limpiados, codificados y normalizados mediante escalado min-max:
(4)
El vector de metadatos procesado Mclinical se fusionó con características de imagen para construir la entrada multimodal final:
Fcombinado=F fusiónM clínico (5)
División de conjuntos de datos: Se aplicó una división estratificada para preservar la distribución de clases
Dtren,D prueba=Split(F comido,0.8) (6)
Gestión del desequilibrio de clase: El conjunto de datos HAM10000 presenta un desequilibrio severo de las clases, donde predominan las muestras de "nevus" (NV) por estar infrarrepresentadas en otros grupos minoritarios, como DF con VASC. Para reducir este problema, se empleó la "Técnica de Sobremuestreo de Minorías Sintéticas" (técnica de equilibrio de clases). Utilizando: Se produjeron nuevas muestras sintéticas como:
xnuevo=x i + λ(xzi -x i) (7)

Donde xi es una muestra de clase minoritaria, xzi es uno de sus vecinos más cercanos, y λ es un valor aleatorio muestreado de una distribución uniforme entre 0 y 1. La muestra sintética, como se muestra en la Figura 4, se genera a lo largo del segmento de línea que une x sub i.y xent une xi yx zi.

Figura 4: Distribución de clases en el conjunto de datos de HAM10000 antes/después de aplicar la técnica de balanceo de clases. (A) Antes del equilibrio de clases, con desequilibrio entre clases de lesiones. (B) Después del balanceo de clases en el espacio de características combinado, donde la representación de todas las clases es igual para evitar sesgos en el proceso de entrenamiento del clasificador. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
Para abordar el problema del desequilibrio de clases en el conjunto de datos de HAM10000, se aplica la Técnica de Sobremuestreo de Minorías Sintéticas (técnica de equilibrio de clases). La técnica de balanceo de clases genera muestras sintéticas para las clases minoritarias interpolando entre puntos de datos existentes, lo que ayuda a aumentar la representación de categorías de lesiones subrepresentadas. El resultado final de producir más ejemplos de estas clases minoritarias es un conjunto de datos más equilibrado en general, respecto a los siete tipos de lesión. Esta representación equilibrada permitirá que los modelos de clasificación aprendan mejor con cada clase y minimizen el sesgo con las clases mayoritarias. En consecuencia, el modelo es más justo en su clasificación y es más sensible, especialmente a lesiones cutáneas raras pero clínicamente importantes.
Marco de aprendizaje que preserva la privacidad
El sistema sugerido propone un sistema multimodal de clasificación automatizada de lesiones en la piel, respetuoso de la privacidad e interpretable. El objetivo final del sistema es mejorar el rendimiento diagnóstico y, al mismo tiempo, proteger la información sensible del paciente durante todo el proceso de formación. La privacidad del paciente es una necesidad esencial en la práctica médica porque las leyes de privacidad de datos sanitarios y las consideraciones éticas son muy importantes en los entornos sanitarios. Por tanto, el modelo sugerido incluirá un modelo de aprendizaje descentralizado basado en las ideas del aprendizaje federado. En este entorno descentralizado, el entrenamiento con modelos se realiza en un grupo de clientes distribuidos en lugar de agregar todos los datos del paciente en una ubicación centralizada. Todos los clientes participantes entrenan el modelo localmente con sus propios datos, y los datos en bruto de los pacientes no salen del entorno local. Como alternativa a mover historiales médicos sensibles, se envían actualizaciones o parámetros de modelos a un servidor central para ser agregados. Este enfoque cooperativo del aprendizaje permite que las distintas instituciones o fuentes de datos contribuyan al entrenamiento del modelo sin comprometer la privacidad de los datos.
Sea wt(k) los parámetros del modelo del k-ésimo cliente en la t-ésima iteración, y sean nk el tamaño de muestra en ese cliente. La actualización del modelo global se calcula como:
(8)
Esta estrategia de agregación garantiza que los clientes con conjuntos de datos más grandes contribuyan proporcionalmente más al modelo global, permitiendo que los clientes más pequeños participen en el proceso de aprendizaje. Al permitir la formación colaborativa sin intercambiar datos en bruto de los pacientes, el marco propuesto mantiene la privacidad mientras se beneficia del conocimiento distribuido entre conjuntos de datos.
Montaje experimental federado
Se diseñó un sistema simulado de aprendizaje federado con el conjunto de datos HAM10000 para confirmar la eficiencia del marco respetuoso de la privacidad ofrecido. Los datos se dividieron en tres clientes para simular un entorno multiinstitucional real con datos no idénticamente distribuidos (no IID). Cada cliente tiene una mezcla variable de clases de lesiones, y esto representa una variación en el mundo entre centros clínicos. La misma cadena multimodal de extracción de características (EfficientNet-B4, DenseNet201, MobileNet V2 y metadatos clínicos) se ejecutaba localmente en cada cliente. En su entrenamiento, los clientes actualizaban sus modelos locales por sí mismos, y los parámetros aprendidos solo se intercambiaban con el servidor central para ser agregados por el algoritmo FedAvg. Se comparó el equilibrio entre la precisión predictiva y la privacidad entre el modelo federado y el enfoque de entrenamiento centralizado para medir el rendimiento de cada uno. Los resultados de las pruebas indicados en la Figura 5 muestran que el modelo federado puede rendir de forma competitiva, con solo una ligera disminución en la precisión respecto al aprendizaje centralizado, y una privacidad de datos mucho mejorada.

Figura 5: Distribución cliente del conjunto de datos HAM10000. Esto muestra la asignación de datos de lesiones cutáneas entre los clientes, demostrando la diversidad en la distribución de datos. Esto demuestra la heterogeneidad de los datos entre los clientes, un aspecto fundamental del aprendizaje federado. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
Las distribuciones heterogéneas (no IID) de los pacientes formados en HAM10000 se dividieron en tres grupos para modelar condiciones clínicas reales. La distribución de las diferentes categorías de lesiones dentro de cada cliente es distinta, especialmente la clase de nevus (nv), que no se distribuye de manera uniforme entre los pacientes. Esta disposición refleja las dificultades reales del aprendizaje federado, en las que los datos en las instituciones no están distribuidos de manera uniforme.
Comparación de rendimiento: aprendizaje centralizado vs federado
Para evaluar la efectividad del marco de aprendizaje federado propuesto, se realizó un análisis comparativo entre estrategias de formación centralizadas y federadas utilizando el conjunto de datos HAM10000, como se muestra en la Figura 6. En el entorno centralizado, todas las muestras de datos se agregaban en un único grupo de entrenamiento. El modelo centralizado con mejor rendimiento, el ensamble apilado, alcanzó una precisión global del 96%. En cambio, el entorno federado distribuyó el conjunto de datos entre tres clientes con datos no idénticos (no IID), donde cada cliente entrenó el modelo localmente y solo compartió parámetros usando FedAvg. El modelo federado alcanzó una precisión global de aproximadamente el 94%, lo que corresponde a una diferencia de rendimiento del 2% en comparación con el enfoque centralizado, como se muestra en la Tabla 4. Esta disminución marginal se espera debido a la optimización descentralizada y la distribución heterogénea de datos entre clientes.
Aunque ocurrió este pequeño cambio, el modelo federado seguía haciendo buenas predicciones. En el entrenamiento centralizado, el comportamiento por clase muestra que la mayoría de las clases, como el nevus (nv) (puntuación F1 = 1,00), se mantienen estables, mientras que las clases minoritarias, como el dermatofibroma (df) (puntuación F1 ≈ 0,65–0,66), son más sensibles al desequilibrio de distribución, lo que podría afectar aún más al rendimiento federado. Cabe destacar que la estructura federada minimiza las posibilidades de exponer información sensible de los pacientes, ya que no requiere compartir datos médicos en bruto entre los clientes.

Figura 6: Comparación entre aprendizaje federado y aprendizaje centralizado. Esta figura compara paradigmas de aprendizaje utilizando métricas de rendimiento como precisión, precisión, recuerdo y puntuación F1. Esto demuestra la capacidad del aprendizaje federado para lograr un rendimiento comparable al del enfoque tradicional de aprendizaje, preservando la privacidad. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
Los resultados de la Tabla 4 indican que el modelo de aprendizaje federado es capaz de ser competitivo, y la caída en la precisión es solo de aproximadamente un 2% en comparación con el modelo centralizado. Esta ligera reducción puede explicarse por la optimización descentralizada y la distribución de datos no IID. Sin embargo, el modelo federado tiene una enorme ventaja en cuanto a protección de la privacidad, ya que la información sensible de los pacientes no se comparte entre los clientes. Para proporcionar una comparación justa entre el modelo federado y el modelo centralizado de ensambles apilados, el modelo federado se probó con la misma arquitectura e hiperparámetros. El aspecto de preservación de la privacidad que se discute en este estudio es conceptual y pretende destacar la posible integración de técnicas como el aprendizaje federado en trabajos futuros. No se realiza ninguna validación experimental de mecanismos que preserven la privacidad en la implementación actual.
Fusión de características multimodales
El diagnóstico de lesiones cutáneas suele incluir la observación cutánea y la historia clínica. En la mayoría de los casos, los dermatólogos no solo consideran las imágenes dermoscópicas colocándolas en relación con la información del paciente (edad, sexo y ubicación de la lesión) para hacer sus juicios diagnósticos. El sistema propuesto se basa en la inspiración de este flujo de trabajo clínico e incorpora un enfoque multimodal para el aprendizaje que combina datos basados en imágenes y clínicos. Las CNN se entrenan en características profundas de imagen dermoscópica preexistentes. Estas redes reconocen diseños visuales intrincados, incluyendo cambios de color, formas de lesiones, anomalías estructurales y características de texturas. Sin embargo, las características de las imágenes pueden no ser suficientes para reflejar la situación clínica de una lesión. Por tanto, también se incluyen metadatos clínicos relacionados con cada imagen en el aprendizaje. Se creará un módulo de fusión de características que integrará las características de imagen profunda con atributos clínicos procesados e información demográfica. Esta representación compuesta constituye una representación integrada de características multimodales que consiste tanto en información visual como contextual de cada lesión. El modelo puede integrar varias fuentes de datos para obtener patrones complementarios que mejoran la capacidad general de clasificación. La representación multimodal permite al sistema diferenciar de forma más eficaz entre lesiones visualmente similares, así como tener en cuenta los indicadores clínicos. El modelo es más clínicamente significativo y efectivo, ya que es una aproximación más cercana a cómo los dermatólogos estudian las lesiones en la práctica clínica.
Aprendizaje en conjunto apilado
El marco propuesto utiliza una estrategia de aprendizaje en conjunto apilado para mejorar aún más la capacidad predictiva del sistema. El aprendizaje en conjunto es un método compuesto de predicción que utiliza dos o más modelos predictivos para mejorar la generalización y minimizar los errores de predicción que pueden ocurrir con modelos individuales. Los aprendices de múltiples bases se entrenan de forma independiente en la representación multimodal de características en lugar de usar un único clasificador. Todos los aprendices de base proporcionan una estimación de la probabilidad de que una muestra concreta pertenezca a una clase de lesiones concreta. Estas predicciones de probabilidad se agregan a nivel meta. Se asigna un peso a cada aprendiz base para mostrar su importancia relativa en la predicción final. Se utiliza una función de activación softmax para calcular la salida agregada y así generar probabilidades de clase normalizadas. El método del conjunto apilado tiene varias vantaxes. Primero, minimiza la varianza de predicción debido a la combinación de varios modelos y así mejora el rendimiento de la generalización. En segundo lugar, mejora la fuerza ya que varios modelos describen distintas tendencias en los datos. En tercer lugar, el aprendizaje en conjunto mejora la clasificación de las clases de lesiones minoritarias, especialmente en datos médicos, donde ciertas condiciones de interés clínico no son tan prevalentes.
Integración de inteligencia artificial explicable
Los sistemas de IA médica también deberían ofrecer explicaciones claras de sus elecciones, aunque una alta precisión en las predicciones sea fundamental. Para depositar confianza en los sistemas de IA y ser efectivos en su práctica, los clínicos deben ser capaces de comprender cómo un modelo se ajusta al diagnóstico que produce. Para satisfacer esta necesidad, el marco propuesto incorpora métodos de inteligencia artificial explicable (XAI), como se muestra en la Figura 7.

Figura 7: Matrices de confusión de diferentes modelos de clasificación para la clasificación de lesiones cutáneas multiclase. (A) XGBoost, (B) LightGBM, (C) Clasificador Neural Profundo y (D) modelo de conjunto apilado. Cada matriz de confusión muestra la relación entre la clase verdadera (filas) y la clase predicha (columnas) para los siete tipos de lesiones cutáneas: akiec, bcc, bkl, df, mel, nv y vasc. Los modelos XGBoost y LightGBM rinden bien para las clases nv y bkl, aunque hay cierta confusión entre mel y nv. El Clasificador Neural Profundo mejora la clasificación de bkl y df y disminuye la confusión fuera de la diagonal. El modelo de Ensamble Apilado muestra la mayor consistencia en la clasificación, con la diagonal volviéndose cada vez más dominante. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
El sistema incluye dos enfoques populares de explicabilidad (técnica de interpretabilidad del modelo (SHapley Additive Explanations) y técnica de interpretabilidad del modelo (Local Interpretable Interpretable Model-agnostic Explanations)) para ofrecer una visión de lo que predice el modelo. El método de interpretabilidad del modelo explica las características a nivel de características midiendo hasta qué punto cada característica de entrada ha contribuido a la predicción global. Ayuda a determinar qué variables clínicas o cualidades visuales tienen mayor impacto en el resultado de la clasificación. Esto permite a investigadores y clínicos observar el comportamiento general del modelo en todo el conjunto de datos. La técnica de interpretabilidad de modelos, por otro lado, se ocupa de explicaciones locales de predicciones individuales. Enfatiza las áreas de la imagen dermoscópica que tienen mayor impacto en la decisión del modelo. Estas explicaciones visuales a nivel de píxel permiten a los clínicos inspeccionar visualmente las áreas de la lesión que informaron la clasificación. El marco propuesto ofrece interpretabilidad global y local; Se consigue integrando la técnica de interpretabilidad del modelo. El mecanismo de doble explicación mejora la transparencia y permite a los clínicos evaluar si el modelo está dirigido a patrones médicamente significativos.
Potencial de apoyo a la decisión clínica
El aprendizaje que preserva la privacidad, la fusión de características multimodales, el modelado de conjuntos y la IA explicable son componentes clave de un sistema integrado y robusto para la clasificación automática de lesiones cutáneas. Idealmente, el sistema no solo debería tener un alto poder pronóstico, sino también ser transparente y seguro, que son dos factores clave en los sistemas médicos, como se muestra en la Figura 8.

Figura 8: Curvas de características de operación del receptor (ROC) para el modelo de conjunto apilado. (A–C) Esto muestra las curvas ROC para los siete tipos de lesiones cutáneas, con tasa de positivos verdaderos (sensibilidad) y tasa de falsos positivos (1-especificidad). El área bajo la curva (AUC) representa el rendimiento del modelo de ensamble apilado en la discriminación entre las clases. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
Este sistema proporciona predicciones explicables y protección de la privacidad. Como resultado, es un sistema beneficioso para otros sistemas diagnósticos dermatológicos. Este sistema permite a los profesionales sanitarios y dermatólogos evaluar la sospecha de lesiones y mejorar la precisión diagnóstica y, como resultado, ayudar a los profesionales y dermatólogos a diagnosticar a los pacientes en una fase temprana cuando pueden tener una enfermedad más grave (por ejemplo, melanoma). En esencia, como se muestra en la Figura 9, este sistema busca poner en práctica las tecnologías de uso de sistemas de inteligencia artificial (IA) de alta tecnología e implementación de aplicaciones del mundo real, para ayudar a los dermatólogos a diagnosticar a los pacientes con mayor precisión y confianza, garantizando al mismo tiempo la privacidad y seguridad de los pacientes y su comodidad.

Figura 9: Resultados de explicabilidad utilizando técnicas de interpretabilidad de modelos para la clasificación de lesiones cutáneas de múltiples clases. (A) Gráfico SHAP que muestra contribuciones de características que influyen en las predicciones de lesiones benignas y malignas. (B) Explicación LIME para la predicción de BCC, ilustrando las características que contribuyen positiva y negativamente al resultado de clasificación. (C) Explicación LIME para la predicción de akiec, destacando las características más influyentes involucradas en el proceso de toma de decisiones del modelo. Estas visualizaciones de interpretabilidad demuestran las regiones y características extraídas que afectan significativamente a las predicciones del modelo, mejorando la transparencia y la comprensión del proceso de clasificación en la evaluación de lesiones cutáneas. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
Estrategia de evaluación
Para evitar el sesgo de muestreo y mantener la distribución original de clases en todas las categorías de lesiones cutáneas, el conjunto de datos se dividió en una división 80:20 entre trenes y pruebas. El subconjunto de entrenamiento se dividió entonces en la proporción 90:10 entrenar: validar, ajustar los hiperparámetros y optimizar el modelo. El conjunto de pruebas no se utilizó en ningún momento del proceso de entrenamiento y solo se aplicó al final del proceso como prueba final para evitar fugas de datos y asegurar una evaluación de rendimiento imparcial. Todos los modelos se preprocesaron y entrenaron en igualdad de condiciones, los datos se particionaron y aumentaron de la misma manera, y se aplicaron y siguieron los protocolos de evaluación de la misma manera, lo que permitió comparaciones justas y reproducibles. Los modelos fueron evaluados exhaustivamente en función de la precisión, exactitud, recuerdo, puntuación F1 y AUC, con un análisis detallado de los resultados por clase para determinar su robustez tanto para las clases principales como para las minorías de lesiones. Esta herramienta de validación estandarizada ayudaría a aumentar la fiabilidad, transparencia y generalización del enfoque propuesto, y a superar las posibles inconsistencias en la notificación de resultados.