$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Questo studio ha utilizzato dataset dermoscopici completamente anonimi e pubblicamente disponibili e non ha coinvolto una partecipazione umana diretta; Pertanto, non era richiesta l'approvazione del comitato etico. La Tabella dei Materiali contiene dettagli su tutti i materiali o strumenti utilizzati in questo studio. La Tabella 1 include dettagli sull'ambiente hardware e software, come tipo di processore, memoria, sistema operativo e framework software. La Tabella 2 include dettagli sulla precisione per classe, il richiamo, il punteggio F1 e il supporto per ciascuna categoria di lesione cutanea.
Flusso di lavoro complessivo del framework proposto per la classificazione multimodale delle lesioni cutanee
L'obiettivo generale di questa ricerca è creare uno schema preciso e comprensibile di multi-classificazione delle lesioni cutanee. Il flusso di lavoro inizia con la raccolta dei dati e la pre-elaborazione del dataset HAM10000, poi procede con l'estrazione delle feature utilizzando architetture di deep learning e l'inclusione di metadati clinici. Successivamente, diversi classificatori di machine learning vengono addestrati e ottimizzati, e i loro risultati vengono aggregati in una strategia di ensemble. Infine, le previsioni del modello vengono interpretate utilizzando tecniche di spiegabilità, e l'efficacia del modello viene valutata per l'uso nel supporto decisionale clinico reale.
Per migliorare l'accuratezza predittiva del sistema proposto, viene utilizzata una pipeline di machine learning multimodale, che combina sia caratteristiche basate su immagini che metadati clinici (come mostrato nella Figura 1). Il modello può riassumere i risultati visivi delle immagini dermoscopiche con le informazioni relative al paziente per identificare schemi più dettagliati relativi a varie lesioni cutanee. Con una tale combinazione, il sistema può fare previsioni migliori, che alla fine lo faranno. Migliora la qualità e l'utilità della classificazione delle lesioni cutanee. Tre caratteristiche convoluzionali Deep pre-addestrate sono estratte con l'aiuto di reti neurali (EfficientNet-B4, DenseNet201 e MobileNetV2): sono in grado di catturare una varietà di pattern complementari di immagini dermoscopiche. Queste architetture apprendono pattern di alto livello nell'aspetto delle lesioni cutanee, come i cambiamenti di colore e texture, e il modo in cui sono costruite. Successivamente, un modulo di fusione delle caratteristiche combina le caratteristiche profonde con le caratteristiche cliniche e i dati demografici per creare una ricca caratteristica multimodale. I dati uniti vengono poi separati in dati di addestramento, validazione e test per garantire test adeguati del modello. Successivamente, viene utilizzato un modulo di fusione delle caratteristiche per fondere le caratteristiche profonde con quelle cliniche e demografiche, producendo una ricca caratteristica multimodale. Questi dati vengono poi suddivisi in dati di addestramento, test e validazione per testare il modello. Una strategia di ensemble viene utilizzata per migliorare ulteriormente l'accuratezza delle previsioni. Questo avviene facendo la media dei risultati di diversi modelli e arrivando alla previsione finale usando quelle probabilità medie per migliorare la generalizzazione e minimizzare la varianza che altrimenti sarebbe stata causata dai singoli modelli. Oltre a ciò, sono integrati anche metodi di spiegabilità, come le tecniche di interpretabilità del modello, per spiegare meglio come il modello prende le sue decisioni. Il metodo di interpretabilità del modello fornisce interpretazioni a livello di caratteristica quantificando il contributo delle variabili di input, mentre il metodo di interpretabilità del modello identifica aree importanti all'interno delle immagini dermoscopiche a livello di pixel che influenzano la previsione. Le tecniche di interpretabilità del modello offrono spiegazioni a livello di caratteristica quantificando il contributo di ciascuna variabile di input, mentre le tecniche di interpretabilità del modello evidenziano regioni importanti a livello di pixel all'interno delle immagini dermoscopiche che influenzano la previsione. Combinate, queste tecniche rendono i modelli più interpretabili e aiutano i clinici a capire come il sistema prende decisioni. Di conseguenza, la pipeline proposta offre un sistema comprensibile e attento alla privacy, aumentando la trasparenza e la fiducia e consentendo una diagnosi di cancro della pelle più affidabili in un contesto sanitario reale.
Descrizione del dataset con preparazione
In questo articolo, il dataset HAM10000 (Human against Machine with 10.000 training images) viene utilizzato come dataset principale per la classificazione multi-class delle lesioni cutanee. Il dataset contiene oltre 10.000 dati dermoscopici raccolti da varie fonti mediche. Fonti cliniche e popolazioni, rendendolo uno dei dataset di riferimento più utilizzati nell'analisi delle immagini dermatologiche. Ogni immagine nel dataset è accompagnata da importanti metadati clinici, tra cui identificatori delle immagini, etichette diagnostiche, età del paziente, sesso e la posizione anatomica della lesione. Il dataset copre sette categorie diagnostiche: cheratosi attiche (akiec), carcinoma basocellulare (bcc), cheratosi benigna (bkl), dermatofibroma (df), nevi melanocitari (nv), lesioni vascolari (vasc) e melanoma (mel).
Pretrattamento dei metadati clinici
Le caratteristiche ausiliarie aggiunte alla pipeline di classificazione includevano metadati clinici, come età, sesso e la posizione della lesione nel paziente. Erano mancanti o sconosciuti valori che venivano trattati con un approccio di preelaborazione deterministica. Nel caso della variabile età (numerica), l'età mediana calcolata sull'insieme di addestramento è stata utilizzata per imputare i valori mancanti. Il motivo per cui è stata scelta l'imputazione mediana è che è resistente a valori anomali e dati distorti, che sono prevalenti nei dati clinici. Per il sesso e la localizzazione della lesione (variabili categoriche), non sono stati esclusi valori mancanti o non specificati; Furono assegnati a una categoria speciale etichettata 'sconosciuta'. Il metodo mantiene tutti i campioni disponibili e il modello è libero di determinare se la mancanza stessa sia predittiva. La codifica one-hot veniva poi applicata alle variabili categoriche per permetterne la compatibilità con i modelli di machine learning. Tutta la preelaborazione, come imputazione, codifica, ecc., veniva effettuata solo sul set di addestramento, e le stesse trasformazioni venivano effettuate nei set di validazione e sperimentazione per evitare la perdita di dati. Non sono stati esclusi campioni solo per mancanza di metadati clinici, e questo ha garantito che i dati fossero utilizzati al massimo e che ci fosse coerenza metodologica.

Figura 1: Sistema multimodale per la classificazione delle lesioni cutanee. L'approccio dello studio combina caratteristiche di immagini dermoscopiche con i metadati dei pazienti per classificare le lesioni cutanee utilizzando modelli di deep learning in ensemble. Il framework include preprocessing, estrazione di caratteristiche, fusione multimodale e classificazione, consentendo prestazioni diagnostiche e interpretabilità migliorate. Clicca qui per visualizzare una versione più grande di questa figura.
Il flusso di lavoro illustra la pipeline di classificazione suggerita, basata su immagini dermoscopiche e metadati clinici del dataset HAM10000 lesioni cutanee. EfficientNet-B4, DenseNet201 e MobileNetV2 sono utilizzati per preprocessare ed estrarre le caratteristiche profonde nelle immagini. I metadati clinici sono codificati e la fusione delle caratteristiche viene utilizzata per combinare le caratteristiche dell'immagine con i metadati clinici. Per affrontare il problema dello squilibrio di classe, la tecnica di bilanciamento delle classi viene utilizzata nello spazio delle caratteristiche multimodali fuse invece che nelle immagini raw o nei singoli flussi di caratteristiche, dove i campioni sintetici mantengono la combinazione di entrambe le caratteristiche visive e cliniche e non producono campioni irrealistici. Le caratteristiche unite vengono poi addestrate su classificatori come XGBoost, LightGBM e un classificatore neurale profondo.

Figura 2: Esempio di immagini dermoscopiche provenienti da sette diversi gruppi diagnostici dal dataset HAM10000. Le immagini mostrano caratteristiche visive tipiche utilizzate per la classificazione automatica. (A) cheratosi actiniche (akiec), che mostrano superfici ruvide con pigmentazione irregolare. (B) carcinoma basocellulare (bcc), con forme e vasi sanguigni irregolari. (C) Lesioni benigne simili alla cheratosi (bkl), che mostrano caratteristiche cheratotiche con superfici marrone chiaro. (D) Dermatofibroma (df), con aspetto centrale simile a una cicatrice e pigmentazione. (E) Nevi melanocitici (nv), nei benigni e relativamente simmetrici. (F) Lesioni vascolari (vasci), che mostrano un aspetto rossastro-violaceo dovuto ai vasi sanguigni. (G) Melanoma (mel), che si presenta come una lesione di forma irregolare, asimmetrica e multipigmentata. Clicca qui per visualizzare una versione più grande di questa figura.
Queste immagini dermoscopiche rivelano l'eterogeneità visiva delle lesioni cutanee, che presentano variazioni nella pigmentazione, nella consistenza e nella morfologia della struttura. Queste variazioni rappresentano una grande sfida per i sistemi di classificazione automatizzati e sottolineano l'importanza dei sistemi basati sul deep learning. Tecniche di estrazione di caratteristiche sensibili a rivelare schemi diagnostici sottili. A seguito della descrizione del dataset, la Figura 2 illustra le sette categorie di lesioni cutanee incluse nel dataset HAM10000, comunemente studiate nella ricerca diagnostica di imaging dermatologico. Queste classi includono cheratosi attiche (akiec), carcinoma basocellulare (bcc), cheratosi benigna (bkl), dermatofibroma (df), nevi melanocitarici (nv), lesioni vascolari (vasc) e melanoma (mel)21. Tutti questi tipi di lesioni presentano caratteristiche visive uniche, come mostrato nella Figura 3, che includono variazioni nei pattern di pigmentazione, nella texture superficiale, nella distribuzione dei colori e nelle anomalie lungo i bordi della lesione. Le caratteristiche visive di tutte queste lesioni sono diverse e sono caratterizzate da variazioni nei pattern di pigmentazione, texture superficiale, distribuzione dei colori e anomalie ai margini delle lesioni. Queste sono caratteristiche importanti che i dermatologi avrebbero in considerazione durante l'esame clinico e quindi devono essere ben modellate tramite modelli di machine learning per ottenere la classificazione corretta. Anche se queste sono le caratteristiche distintive, molte di queste lesioni appaiono praticamente identiche, il che rende difficile distinguerle guardando solo immagini dermoscopiche. La distinzione tra alcuni tipi di lesioni è tipicamente estremamente sottile ma clinicamente rilevante, rendendo difficile classificarla automaticamente. Per questo è urgente creare modelli di IA potenti in grado di addestrarsi ad apprendere immagini visive a grana fine e differenze sottili nelle lesioni tra le classi di lesioni. Queste proprietà non solo saranno valorizzate dalla descrizione appropriata, che porterà al miglioramento delle capacità discriminative del modello con diversi tipi di lesioni, ma aiuterà anche a diagnosticare in anticipo alcune condizioni pericolose, come il melanoma. Infine, può migliorare l'accuratezza diagnostica, informare i clinici nel prendere decisioni che portano a risultati migliori per i pazienti e aiutare a prendere decisioni migliori.

Figura 3: Distribuzione delle lesioni cutanee per classe nel dataset HAM10000. La figura mostra la distribuzione delle sette categorie di lesioni considerate in questo studio: cheratosi attiche (akiec), carcinoma basocellulare (bcc), lesioni benigne simili alla cheratosi (bkl), dermatofibroma (df), nevi melanocitici (nv), lesioni vascolari (vasc) e melanoma (mel). Questo grafico illustra lo squilibrio di classe delle classi di lesioni. Clicca qui per visualizzare una versione più grande di questa figura.
L'analisi del dataset mostra che esiste uno squilibrio tra le classi dei diversi tipi di lesioni. Il tipo più comune di Nevi Melanocitici (nv), con circa 6.705 campioni, è il più comune, seguito da Melanoma (1.113) e Ceratosi Benigna (1.099). Al contrario, esistono alcune forme di lesioni di rilevanza clinica significativamente meno rappresentate, come il dermatofibroma (115) e le lesioni vascolari (142). Questa sproporzione rappresenta una minaccia per i modelli di machine learning perché possono tendere a essere favorevoli alle classi maggioritarie e non sono in grado di rilevare lesioni insolite ma clinicamente significative. Per affrontare questo problema e migliorare l'addestramento del modello sulle prestazioni del modello rispetto a tutte le classi, è necessario un preprocessing avanzato. Servono strategie. Queste includono tecniche come l'aumento mirito dei dati e il bilanciamento delle classi. I dati possono essere bilanciati utilizzando la tecnica (tecnica di bilanciamento delle classi e aggiustamento del peso delle classi) che incoraggiano il modello a scoprire tendenze sostanziali nelle classi sottorappresentate. Gli iperparametri usati per XGBoost e LightGBM sono stati impostati principalmente nelle loro configurazioni predefinite, con piccoli aggiustamenti basati su esperimenti preliminari. Per il classificatore neurale profondo, sono stati selezionati empiricamente parametri architettonici e di addestramento come il numero di strati, neuroni, tasso di apprendimento, dimensione del lotto e numero di epoche utilizzando dati di validazione. L'insieme completo degli iperparametri è fornito nella Tabella 3. In generale, il numero di immagini dermoscopiche utilizzate nel presente studio è di 10.015 in totale. Questo ha il vantaggio di fornire una vasta raccolta di dati da addestrare e testare, ed è anche un metro di misura noioso ma gratificante. Valuta l'efficacia del sistema proposto di classificazione delle lesioni cutanee.
Preprocessing dei dati
La pipeline di preprocessing prepara il dataset HAM10000 per l'apprendimento multimodale standardizzando le immagini, estraendo caratteristiche profonde, integrando metadati clinici e affrontando lo squilibrio di classe.
Standardizzazione delle immagini: tutte le immagini dermoscopiche sono state ridimensionate a 224 × 224 pixel e normalizzate tramite normalizzazione z-score.
(1)
Dove rappresento l'immagine raw, μ indica la media pixel per pixel, e σ è la deviazione standard.
Estrazione profonda di caratteristiche: Caratteristiche profonde complementari sono state estratte utilizzando tre reti neurali convoluzionali pre-addestrate: Efficient-Net B4, DenseNet201, insieme a MobileNetV2. Ogni rete mappa l'immagine normalizzata a un vettore di caratteristiche.
(2)
Le caratteristiche estratte furono concatenate per formare una rappresentazione unificata:
F fusione=FEffB4 ||Fdenso ||FMobV2 (3)
(dove || significa concatenazione)
Integrazione dei Metadati Clinici: Gli attributi clinici, inclusi età, sesso e localizzazione delle lesioni, sono stati puliti, etichettati e normalizzati utilizzando la scala min-max:
(4)
Il vettore metadati elaborato Mclinico è stato fuso con le caratteristiche dell'immagine per costruire l'input multimodale finale:
Fcombinato=FfusioneMclinico (5)
Divisione dei dataset: È stata applicata una suddivisione stratificata per preservare la distribuzione delle classi
Dtreno,D test=Split(F comedito,0.8) (6)
Gestione dello squilibrio di classe: Il set di dati HAM10000 presenta un grave squilibrio tra le classi, dove prevalgono campioni di "nevus" (NV) essendo sottorappresentati in altri gruppi minoritari, come DF con VASC. Per ridurre questo problema, è stata impiegata la "Tecnica di Sovracampionamento Sintetico delle Minoranze" (tecnica di bilanciamento delle classi). Utilizzo: Sono stati prodotti nuovi campioni sintetici come:
xnuovo=x i + λ(xzi -x i) (7)

Dove xi è un campione di classe minoritaria, xzi è uno dei suoi vicini più prossimi, e λ è un valore casuale campionato da una distribuzione uniforme tra 0 e 1. Il campione sintetico, come mostrato nella Figura 4, è generato lungo il segmento di linea che unisce x sub i.e xent unisce xi ex zi.

Figura 4: Distribuzione delle classi nel dataset HAM10000 prima/dopo l'applicazione della tecnica di bilanciamento delle classi. (A) Prima dell'equilibrio delle classi, con squilibrio tra le classi di lesioni. (B) Dopo il bilanciamento delle classi nello spazio delle caratteristiche combinato, dove la rappresentazione di tutte le classi è uguale per evitare il bias nel processo di addestramento del classificatore. Clicca qui per visualizzare una versione più grande di questa figura.
Per affrontare il problema dello squilibrio di classe nel dataset HAM10000, viene applicata la Tecnica di Sovracampionamento delle Minoranze Sintetiche (tecnica di bilanciamento delle classi). La tecnica di bilanciamento delle classi genera campioni sintetici per le classi minoritarie interpolando tra i dati esistenti, il che aiuta ad aumentare la rappresentazione delle categorie di lesioni sottorappresentate. Il risultato finale della produzione di più esempi di queste classi minoritarie è un dataset complessivamente più equilibrato, rispetto a tutti e sette i tipi di lesioni. Questa rappresentazione bilanciata permetterà ai modelli di classificazione di imparare meglio con ogni classe e di minimizzare il bias con le classi maggioritarie. Di conseguenza, il modello è più equo nella classificazione e sensibile, soprattutto alle lesioni cutanee rare ma clinicamente importanti.
Quadro di apprendimento che preserva la privacy
Il sistema suggerito propone un sistema multimodale di classificazione automatica delle lesioni sulla pelle, attento alla privacy e interpretabile. L'obiettivo finale del sistema è migliorare le prestazioni diagnostiche e, allo stesso tempo, proteggere le informazioni sensibili dei pazienti durante tutto il processo di formazione. La privacy del paziente è una necessità essenziale nella pratica medica perché le leggi sulla privacy dei dati sanitari e le considerazioni etiche sono estremamente importanti nei contesti sanitari. Pertanto, il modello suggerito includerà un modello di apprendimento decentralizzato basato sulle idee dell'apprendimento federato. In questo ambiente decentralizzato, l'addestramento del modello viene effettuato su un gruppo di client distribuiti invece di aggregare tutti i dati dei pazienti in una posizione centralizzata. Tutti i clienti partecipanti addestrano il modello localmente sui propri dati, e i dati grezzi dei pazienti non escono dall'ambiente locale. Come alternativa allo spostamento delle cartelle cliniche sensibili, aggiornamenti o parametri del modello vengono inviati a un server centrale per essere aggregati. Questo approccio cooperativo all'apprendimento consente alle varie istituzioni o fonti di dati di contribuire all'addestramento dei modelli senza compromettere la privacy dei dati.
Sia wt(k) i parametri del modello del k-esimo cliente alla t-esima iterazione, e sia nk la dimensione del campione in quel cliente. L'aggiornamento del modello globale viene calcolato come:
(8)
Questa strategia di aggregazione garantisce che i clienti con dataset più grandi contribuiscano proporzionalmente di più al modello globale, consentendo comunque ai clienti più piccoli di partecipare al processo di apprendimento. Consentendo la formazione collaborativa senza scambiare dati grezzi dei pazienti, il framework proposto mantiene la privacy pur beneficiando della conoscenza distribuita tra i dataset.
Configurazione sperimentale federata
Un sistema di apprendimento federato simulato con il dataset HAM10000 è stato progettato per confermare l'efficienza del framework consapevole della privacy offerto. I dati sono stati suddivisi in tre client per simulare un ambiente multi-istituzionale reale con dati non identicamente distribuiti (non-IID). Ogni cliente ha una varietà di classi di lesioni, che rappresenta una variazione nel mondo tra i centri clinici. La pipeline identica di estrazione delle funzionalità multimodali (EfficientNet-B4, DenseNet201, MobileNet V2 e metadati clinici) veniva eseguita localmente su ogni client. Durante il loro addestramento, i client aggiornavano autonomamente i loro modelli locali e i parametri appresi venivano scambiati solo con il server centrale per essere aggregati dall'algoritmo FedAvg. Il compromesso tra accuratezza predittiva e privacy è stato confrontato tra il modello federato e l'approccio di addestramento centralizzato per misurare le prestazioni di ciascuno. I risultati dei test indicati nella Figura 5 mostrano che il modello federato può funzionare in modo competitivo, con solo una leggera diminuzione della precisione rispetto all'apprendimento centralizzato e una privacy dei dati molto migliorata.

Figura 5: Distribuzione cliente del dataset HAM10000. Questo mostra l'allocazione dei dati sulle lesioni cutanee tra i clienti, dimostrando la diversità nella distribuzione dei dati. Questo dimostra l'eterogeneità dei dati tra i clienti, un aspetto fondamentale dell'apprendimento federato. Clicca qui per visualizzare una versione più grande di questa figura.
Le distribuzioni eterogenee (non IID) dei clienti formati in HAM10000 sono state suddivise in tre gruppi per modellare condizioni cliniche reali. La distribuzione delle diverse categorie di lesioni all'interno di ogni cliente è diversa, in particolare la classe di nevus (nv), che non è distribuita uniformemente tra i clienti. Questa disposizione è indicativa delle difficoltà reali dell'apprendimento federato, in cui i dati nelle istituzioni non sono distribuiti in modo uniforme.
Confronto delle prestazioni: apprendimento centralizzato vs federato
Per valutare l'efficacia del framework di apprendimento federato proposto, è stata condotta un'analisi comparativa tra strategie di formazione centralizzate e federate utilizzando il dataset HAM10000, come mostrato nella Figura 6. In un contesto centralizzato, tutti i campioni di dati venivano aggregati in un unico pool di addestramento. Il modello centralizzato con le migliori performance, l'ensemble impilato, ha raggiunto un'accuratezza complessiva del 96%. Al contrario, l'ambiente federato distribuiva il dataset su tre client con dati non identicamente distribuiti (non-IID), dove ogni client addestrava localmente il modello e condivideva solo i parametri del modello tramite FedAvg. Il modello federato ha raggiunto un'accuratezza complessiva di circa il 94%, corrispondente a una differenza di prestazioni del 2% rispetto all'approccio centralizzato, come mostrato nella Tabella 4. Questa diminuzione marginale è prevista a causa dell'ottimizzazione decentralizzata e della distribuzione eterogenea dei dati tra i clienti.
Anche se questo piccolo cambiamento avvenne, il modello federato fece comunque bene la prediczione. Nell'addestramento centralizzato, il comportamento per classe mostra che la maggior parte delle classi, come il nevus (nv) (punteggio F1 = 1,00), rimane stabile, mentre le classi minoritarie, come il dermatofibroma (df) (punteggio F1 ≈ 0,65–0,66), sono più sensibili allo squilibrio di distribuzione, che potrebbe influire ancora maggiormente sulle prestazioni federate. In particolare, la struttura federata riduce al minimo le possibilità di esporre informazioni sensibili sui pazienti, poiché non richiede la condivisione di dati medici grezzi tra i clienti.

Figura 6: Confronto tra apprendimento federato e apprendimento centralizzato. Questa figura confronta i paradigmi di apprendimento utilizzando metriche di performance come accuratezza, precisione, richiamo e punteggio F1. Questo dimostra la capacità dell'apprendimento federato di raggiungere prestazioni paragonabili a quelle dell'approccio tradizionale preservando la privacy. Clicca qui per visualizzare una versione più grande di questa figura.
I risultati della Tabella 4 indicano che il modello di apprendimento federato è in grado di essere competitivo, e il calo di accuratezza è solo di circa il 2% rispetto a quello centralizzato. Questa leggera riduzione può essere spiegata dall'ottimizzazione decentralizzata e dalla distribuzione dei dati non IID. Tuttavia, il modello federato ha un enorme vantaggio per quanto riguarda la protezione della privacy, poiché le informazioni sensibili dei pazienti non vengono condivise tra i clienti. Per fornire un confronto equo tra il modello federato e il modello centrale di ensemble impilato, il modello federato è stato testato con la stessa architettura e iperparametri. L'aspetto della preservazione della privacy discusso in questo studio è concettuale e volto a evidenziare la potenziale integrazione di tecniche come l'apprendimento federato in lavori futuri. Nell'attuale implementazione non viene effettuata alcuna validazione sperimentale dei meccanismi di preservazione della privacy.
Fusione multimodale delle caratteristiche
La diagnosi delle lesioni cutanee di solito include l'osservazione della pelle e l'anamnesi clinica. I dermatologi, nella maggior parte dei casi, non considerano solo le immagini dermoscopiche, collocandole in relazione alle informazioni del paziente (età, sesso e posizione della lesione) per formulare i loro giudizi diagnostici. Il sistema proposto si basa sull'ispirazione di questo flusso di lavoro clinico e incorpora un approccio multimodale all'apprendimento per combinare dati basati su immagini e clinici. Le CNN sono addestrate su caratteristiche profonde di immagini dermoscopiche preesistenti. Tali reti riconoscono disegni visivi complessi, inclusi cambiamenti di colore, forme di lesioni, anomalie strutturali e caratteristiche delle texture. Tuttavia, le caratteristiche delle immagini potrebbero non essere sufficienti a catturare la situazione clinica di una lesione. I metadati clinici relativi a ogni immagine sono quindi inclusi nell'apprendimento. Verrà creato un modulo di feature fusion che integrerà le feature delle immagini profonde con attributi clinici elaborati e informazioni demografiche. Questa rappresentazione composita costituisce una rappresentazione integrata delle caratteristiche multimodali che comprende sia le informazioni visive che contestuali di ogni lesione. Il modello può integrare diverse fonti di dati per ottenere schemi complementari che migliorano la capacità complessiva di classificazione. La rappresentazione multimodale consente al sistema di differenziare più efficacemente tra lesioni visivamente simili e di considerare gli indicatori clinici. Il modello è più significativo ed efficace dal punto di vista clinico poiché rappresenta un'approssimazione più vicina a come i dermatologi studiano le lesioni nella pratica clinica.
Apprendimento in ensemble impilato
Il framework proposto utilizza una strategia di apprendimento in ensemble impilati per migliorare ulteriormente la capacità predittiva del sistema. L'apprendimento in ensemble è un metodo composito di previsione che utilizza due o più modelli predittivi per migliorare la generalizzazione e minimizzare gli errori di previsione che possono verificarsi con modelli singoli. Più studenti base vengono addestrati indipendentemente sulla rappresentazione multimodale delle caratteristiche invece di utilizzare un singolo classificatore. Tutti gli studenti base forniscono una stima di quanto un determinato campione appartenga a una particolare classe di lesioni. Queste previsioni di probabilità vengono poi aggregate a livello meta. Viene assegnato un peso a ciascun apprendente base per mostrarne l'importanza relativa nella previsione finale. Una funzione di attivazione softmax viene utilizzata per calcolare l'output aggregato al fine di generare probabilità di classe normalizzate. Il metodo dell'ensemble impilato presenta numerosi vantaggi. Innanzitutto, minimizza la varianza di previsione dovuta alla combinazione di vari modelli e quindi migliora le prestazioni della generalizzazione. In secondo luogo, aumenta la forza poiché vari modelli descrivono tendenze varie nei dati. In terzo luogo, l'apprendimento in ensemble migliora la classificazione delle classi di lesioni minoritarie, specialmente nei dati medici, dove alcune condizioni di interesse clinico non sono così diffuse.
Integrazione spiegabile dell'intelligenza artificiale
Anche i sistemi di IA medica dovrebbero offrire spiegazioni chiare delle loro scelte, anche se un'elevata accuratezza delle previsioni è fondamentale. Per riporre fiducia nei sistemi di IA ed essere efficaci nella loro pratica, i clinici dovrebbero essere in grado di comprendere come un modello si adatti alla diagnosi che produce. Per soddisfare questa esigenza, il framework proposto incorpora metodi di intelligenza artificiale spiegabile (XAI), come illustrato nella Figura 7.

Figura 7: Matrici di confusione di diversi modelli di classificazione per la classificazione multi-classe delle lesioni cutanee. (A) XGBoost, (B) LightGBM, (C) Classificatore Neurale Profondo e (D) modello Stacked Ensemble. Ogni matrice di confusione mostra la relazione tra la vera classe (righe) e la classe prevista (colonne) per tutti e sette i tipi di lesioni cutanee: akiec, bcc, bkl, df, mel, nv e vasc. I modelli XGBoost e LightGBM funzionano bene per le classi nv e bkl, anche se c'è un po' di confusione tra mel e nv. Il Classificatore Neurale Profondo migliora la classificazione di bkl e df e riduce la confusione fuori diagonale. Il modello Stacked Ensemble mostra la maggiore coerenza nella classificazione, con la diagonale che diventa sempre più dominante. Clicca qui per visualizzare una versione più grande di questa figura.
Il sistema include due approcci di spiegabilità popolari (la tecnica di interpretabilità del modello (SHapley Additive Explanations) e la tecnica di interpretabilità del modello (Local Interpretable Model-agnostic Explanations)) per fornire un'idea di ciò che il modello prevede. Il metodo dell'interpretabilità del modello spiega le caratteristiche a livello di caratteristiche misurando la misura in cui ogni caratteristica di input ha contribuito alla previsione complessiva. Aiuta a determinare quali variabili cliniche/qualità visive hanno il maggiore impatto sul risultato della classificazione. Questo permette a ricercatori e clinici di osservare il comportamento complessivo del modello in tutto il dataset. La tecnica di interpretabilità dei modelli, invece, si occupa di spiegazioni locali di singole previsioni. Enfatizza le aree dell'immagine dermoscopica che hanno il maggiore impatto sulla decisione del modello. Queste spiegazioni visive a livello di pixel permettono ai clinici di ispezionare visualmente le aree della lesione che hanno informato la classificazione. Il quadro proposto offre interpretabilità globale e locale; Ciò si ottiene integrando la tecnica di interpretabilità del modello. Il meccanismo a doppia spiegazione aumenta la trasparenza e permette ai clinici di valutare se il modello sta mirando a modelli di rilevanza medica.
Potenziale di supporto alla decisione clinica
L'apprendimento che preserva la privacy, la fusione di caratteristiche multimodali, la modellazione di ensemble e l'IA spiegabile sono componenti chiave di un sistema integrato e robusto per la classificazione automatica delle lesioni cutanee. Idealmente, il sistema non dovrebbe solo avere un alto potere prognostico, ma anche essere trasparente e sicuro, due fattori chiave nei sistemi medici, come mostrato nella Figura 8.

Figura 8: Curve delle caratteristiche operative del ricevitore (ROC) per il modello dell'insieme sovrapposto. (A–C) Questa mostra le curve ROC per i sette tipi di lesioni cutanee, con tasso di vero positivo (sensibilità) e tasso di falsi positivi (1-specificità). L'area sotto la curva (AUC) rappresenta la performance del modello di ensemble impilato nella discriminazione tra le classi. Clicca qui per visualizzare una versione più grande di questa figura.
Questo sistema fornisce previsioni spiegabili e protezione della privacy. Di conseguenza, è un sistema vantaggioso per altri sistemi diagnostici dermatologici. Questo sistema consente a operatori sanitari/dermatologi di valutare la sospettazione delle lesioni e migliorare l'accuratezza diagnostica e, di conseguenza, aiutare i medici/dermatologi a diagnosticare i pazienti in una fase precoce quando potrebbero avere una malattia più grave (ad esempio, melanoma). In sostanza, come mostrato nella Figura 9, questo sistema mira a portare in pratica le tecnologie dell'uso di sistemi di intelligenza artificiale (IA) ad alta tecnologia e l'implementazione di applicazioni reali, per aiutare i dermatologi a diagnosticare i pazienti in modo più accurato e con maggiore sicurezza, garantendo al contempo la privacy e la sicurezza dei pazienti e il loro comfort.

Figura 9: Risultati di spiegabilità utilizzando tecniche di interpretabilità del modello per la classificazione multi-classe delle lesioni cutanee. (A) Grafico SHAP che mostra i contributi delle caratteristiche che influenzano le previsioni di lesioni benigne e maligne. (B) Spiegazione LIME per la previsione del bcc, illustrando le caratteristiche che contribuiscono positivamente e negativamente al risultato della classificazione. (C) Spiegazione LIME della previsione di akiec, evidenziando le caratteristiche più influenti coinvolte nel processo decisionale del modello. Queste visualizzazioni di interpretabilità mostrano le regioni e le caratteristiche estratte che influenzano significativamente le previsioni del modello, migliorando la trasparenza e la comprensione del processo di classificazione nella valutazione delle lesioni cutanee. Clicca qui per visualizzare una versione più grande di questa figura.
Strategia di valutazione
Per evitare il bias di campionamento e mantenere la distribuzione originale delle classi su tutte le categorie di lesioni cutanee, il dataset è stato suddiviso in una suddivisione train–test 80:20. Il sottoinsieme di addestramento è stato poi suddiviso nel rapporto 90:10 train: validare, per ottimizzare gli iperparametri e ottimizzare il modello. Il set di test non è stato utilizzato nel processo di addestramento in nessuna fase e veniva applicato solo alla fine del processo di addestramento come test finale per evitare perdite di dati e garantire una valutazione imparziale delle prestazioni. Tutti i modelli venivano pre-processati e addestrati in condizioni uguali, i dati erano partizionati e aumentati allo stesso modo, e i protocolli di valutazione venivano applicati e seguiti allo stesso modo, permettendo confronti equi e riproducibili. I modelli sono stati valutati a fondo in base a accuratezza, precisione, richiamo, punteggio F1 e AUC, con un'analisi dettagliata dei risultati per classe per determinarne la robustezza sia per le classi principali che per quelle minoritarie. Questo strumento di validazione standardizzato aiuterebbe ad aumentare l'affidabilità, la trasparenza e la generalizzabilità dell'approccio proposto, superando le potenziali incongruenze nella rendicontazione delle prestazioni.