Research Article

Un quadro multimodale spiegabile che preserva la privacy per la classificazione delle lesioni cutanee

June 12th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Il lavoro proposto mira a sviluppare e valutare una disposizione multimodale spiegabile e preservativa della privacy per una classificazione accurata delle lesioni cutanee, integrando funzionalità di deep learning, metadati clinici e tecniche di intelligenza artificiale spiegabili per migliorare l'accuratezza diagnostica, la trasparenza e un supporto decisionale clinico affidabile per la diagnosi precoce del cancro cutaneo.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Tra le malattie dermatologiche, il cancro della pelle è tra le più pericolose per la vita. Una diagnosi precoce e accurata è importante per migliorare la prognosi del paziente. Tuttavia, i metodi diagnostici tradizionali basati sull'IA affrontano diverse sfide, tra cui preoccupazioni sulla privacy, interpretabilità limitata e un grave squilibrio di classe nei dataset multi-classe delle lesioni cutanee. Per superare queste sfide, l'articolo proposto propone un modello di classificazione multimodale delle lesioni cutanee consapevole della privacy e spiegabile, che combina complessi modelli di deep learning e un approccio di modellazione in ensemble con metodi di intelligenza artificiale spiegabili. La valutazione sperimentale viene condotta utilizzando dati di riferimento HAM10000 disponibili pubblicamente sulla classificazione multi-classe delle lesioni cutanee, accessibili tramite Kaggle Hub, distribuiti su sette classi di lesioni clinicamente significative (akiec, bcc, bkl, df, mel, nv, vasc). Per bilanciare i dati, viene utilizzata una tecnica di bilanciamento delle classi per rafforzare le classi minoritarie. EfficientNet B4, DenseNet201 e MobileNetv2 vengono utilizzati per estrarre rappresentazioni profonde delle caratteristiche, poi combinati con metadati clinici salienti per creare uno spazio di caratteristiche multimodale robusto. Queste caratteristiche multimodali vengono utilizzate per addestrare XGBoost, LightGBM, Deep Neural Classifier (DNC) che hanno prodotto precisioni di classificazione rispettivamente del 92%, 90% e 94%. Viene applicata una strategia di ensemble impilato per combinare gli output di XGBoost, LightGBM e Deep Neural Classifier (DNC), il che porta a un miglioramento della precisione del 96%. Le tecniche di interpretabilità del modello forniscono spiegazioni a livello di funzionalità che aumentano la trasparenza. I risultati sperimentali hanno dimostrato la praticità del quadro suggerito in termini di efficienza con la classificazione clinicamente rilevante e reale delle lesioni cutanee.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Il cancro della pelle rappresenta un peso significativo per la salute globale, con tassi di incidenza in aumento segnalatia livello mondiale 1. Le radiazioni artificiali sono riconosciute come un fattore importante che contribuisce al cancro della pelle, portando a mutazioni genetiche che portano a una proliferazione cellulare incontrollata e allo sviluppo tumorale nelle cellule della pelle 1,2. I tumori della pelle comprendono un gruppo di malattie, tra cui melanoma, carcinoma a cellule squamose e carcinoma basocellulare (BCC). Le cause, la presentazione clinica e i fattori prognostici di queste condizioni differisconotutti 3. Le malattie della pelle sono diventate un ostacolo nella diagnosi medica a causa delle somiglianze a livellodi pixel 4. Nel 2022, si sono verificati 331.722 casi di melanoma (58.667 decessi) e 1,2 milioni di casi NMSC (69.416 decessi) a livello globale. Il tasso di incidenza standardizzato per età (ASR) di picco per il melanoma si è verificato in Oceania (29,78/100.000), Nord America (16,3) ed Europa (10,43). Tuttavia, il rapporto mortalità/incidenza è stato più alto in Africa (0,35) e Asia (0,30) rispetto al Nord America e all'Oceania (0,02 in entrambi), il che potrebbe riflettere una prognosipiù negativa 1. In dermatologia, la diagnosi e il monitoraggio delle lesioni cutanee si sono basati principalmente su esame visivo e altre valutazioni non invasive. I metodi invasivi non vengono applicati perché possono danneggiare le lesioni e impedire l'esecuzione di un follow-up clinico della crescita dellalesione 5. Le lesioni cutanee possono essere di diversi tipi: melanoma (MEL), dermatofibroma (DF), cheratosi attinica e carcinoma intraepiteliale (AKIEC), carcinoma basocellulare (BCC), cheratosi benigna (BKL), nevo melanocitario (NV) e lesioni vascolari (VASC), come definito nel datasetHAM10000 5. Le principali sfide nella classificazione delle immagini dermatoscopiche sono la presenza di peli, inchiostri, segni di righello, macchie colorate, bagliori, gocce, bolle d'olio, vasi sanguigni, aree iperpigmentate e/o lesioniinfiammatorie 6. In precedenza sono stati condotti studi sulla selezione delle caratteristiche e sull'apprendimento profondo per l'imaging medico e la classificazione delle lesionicutanee 7,8.

Sono stati inoltre studiati approcci basati su visione artificiale per la diagnosi del cancro della pelle e l'integrazione di caratteristiche artigianali eprofonde 9, insieme a strategie di fusione delle caratteristiche per migliorare le prestazioni diclassificazione 10. I recenti progressi sottolineano ulteriormente l'integrazione del machine learning nei sistemi sanitari e i framework sicuri di elaborazione dei datimedici 11,12.L'utilizzo dell'assistenza sanitaria tramite IA, alimentato da algoritmi computazionali avanzati, ha il potenziale di offrire programmi di assistenza integrata personalizzati ed efficienti, particolarmente vantaggiosi per i pazienti in contesti di assistenza remota edomiciliare 13. Utilizzando ampi dataset di immagini dermatoscopiche, i modelli di deep learning — in particolare le reti neurali convoluzionali (CNN) — possono essere addestrati per identificare e classificare con precisione varie lesioni cutanee. Diverse tecniche mostrano forti risultati nella segmentazione delle lesioni cutanee, tra cui reti completamente convoluzionali (FCN), CNN, CNN profonde (DCNN), reti residue completamente convoluzionali (FCRN) e architetture U-Net. Le reti neurali profonde (DNN) non sono facilmente interpretabili a causa della loro architettura altamente complessa, quindi il loro processo decisionale è difficile dacomprendere 14,15. I recenti progressi nell'analisi delle immagini mediche hanno dimostrato che le reti neurali convoluzionali profonde (CNN) migliorano significativamente l'efficienza nei compiti di classificazione delle lesioni cutanee. Diversi studi su dataset dermoscopici come HAM10000 hanno dimostrato che le architetture basate su CNN, tra cui ResNet, DenseNet ed EfficientNet, raggiungono forti prestazioni di classificazione multi-classe imparando rappresentazioni gerarchiche delle caratteristiche dalle immagini delle lesioni. Gli approcci ibridi di fusione di caratteristiche, in cui vengono combinate più backbone CNN, hanno ulteriormente migliorato la precisione diagnostica integrando rappresentazioni profonde complementari16. Inoltre, studi attuali hanno studiato modelli ibridi CNN Transformer nell'analisi delle immagini mediche. I modelli con estrattori di caratteristiche per trasformatori visivi e CNN hanno dimostrato risultati migliori nei compiti di classificazione delle lesioni cutanee perché sono più in grado di estrarre il contenuto locale delle texture così come le relazioni contestuali globali17. Questi design ibridi sono anche considerati all'avanguardia nell'imaging medico perché offrono una capacità di apprendimento rappresentativa bilanciata.

In altri ambiti della medicina, le strategie di fusione delle caratteristiche sono state ampiamente utilizzate al di fuori della dermatologia. I sistemi ibridi basati su CNN sono stati applicati anche nell'analisi di immagini istopatologiche per ottenere una migliore classificazione del cancro ai polmoni e al colon con rappresentazioni delle caratteristiche migliorate e dinamiche di apprendimentospaziale 16. Allo stesso modo, in oftalmologia, l'uso di modelli di deep learning addestrati su rappresentazioni di caratteristiche fuse ha dimostrato un'applicazione di successo nello stadio della retinopatia diabetica delle immagini del fondo di fondo, con maggiore robustezza e accuratezza nella classificazione in un compito di valutazionemulticlasse 18. I metodi di fusione multimodale in questi campi suggeriscono tutti che rappresentazioni eterogenee delle caratteristiche permettono una migliore generalizzazione e classificazione, specialmente nei dati medicisquilibrati 19.

Sebbene questi miglioramenti siano stati apportati, le pratiche attuali sono solitamente limitate a essere multimodali, non integrate, inadeguate ad affrontare il problema dello squilibrio di classe e poco utili nelle decisioni cliniche. Per superare questi problemi, questo articolo presenta un modello spiegabile di classificazione delle lesioni cutanee, attento alla privacy e che integra entrambi i metodi di interpretabilità del modello. Tali metodi di spiegabilità possono essere utilizzati per spiegare le previsioni del modello, mostrando quali caratteristiche sono le più importanti e evidenziando aree significative delle immagini dermoscopiche, migliorando la chiarezza e la fiducia nelle procedure cliniche, migliorando così la trasparenza clinica, costruendo fiducia e supportando l'implementazione sicura dei sistemi di IA nella pratica clinica. C'è uno squilibrio significativo nel dataset HAM10000, con alcune classi che hanno molti meno campioni rispetto ad altre. Per superare questo problema, viene utilizzata la tecnica di sovracampionamento delle minoranze sintetiche (nota anche come bilanciamento di classe) per generare campioni sintetici per classi sottorappresentate. Le tecniche di bilanciamento delle classi bilanciano il dataset, permettendo al modello di apprendere meglio dai tipi di lesioni minoritarie, aumentando la sensibilità e consentendo una previsione più affidabile di classi clinicamente significative ma meno frequenti di cancro della pelle.  Le caratteristiche profonde di EfficientNet-B4, DenseNet201 e MobileNetV2 sono combinate con i metadati clinici per creare una rappresentazione più informativa di ogni lesione cutanea. Questa doppia caratteristica ci aiuta a estrarre i modelli visivi delle immagini dermoscopiche e di altre informazioni dei pazienti per un'analisi più approfondita. Le caratteristiche vengono poi addestrate su diversi classificatori, tra cui XGBoost, LightGBM e una Rete Neurale Profonda, per migliorare la capacità e la potenza del modello di classificazione delle lesioni cutanee. L'insieme dei modelli viene utilizzato con una tecnica di ensemble a impilamento per migliorare il modello. Si tratta di un modello composito che sfrutta i punti di forza di molteplici modelli per imparare e trarre beneficio dalle previsioni di tutti i modelli dell'ensemble, mitigandone al contempo i limiti.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo studio ha utilizzato dataset dermoscopici completamente anonimi e pubblicamente disponibili e non ha coinvolto una partecipazione umana diretta; Pertanto, non era richiesta l'approvazione del comitato etico. La Tabella dei Materiali contiene dettagli su tutti i materiali o strumenti utilizzati in questo studio. La Tabella 1 include dettagli sull'ambiente hardware e software, come tipo di processore, memoria, sistema operativo e framework software. La Tabella 2 include dettagli sulla precisione per classe, il richiamo, il punteggio F1 e il supporto per ciascuna categoria di lesione cutanea.

Flusso di lavoro complessivo del framework proposto per la classificazione multimodale delle lesioni cutanee

L'obiettivo generale di questa ricerca è creare uno schema preciso e comprensibile di multi-classificazione delle lesioni cutanee. Il flusso di lavoro inizia con la raccolta dei dati e la pre-elaborazione del dataset HAM10000, poi procede con l'estrazione delle feature utilizzando architetture di deep learning e l'inclusione di metadati clinici. Successivamente, diversi classificatori di machine learning vengono addestrati e ottimizzati, e i loro risultati vengono aggregati in una strategia di ensemble. Infine, le previsioni del modello vengono interpretate utilizzando tecniche di spiegabilità, e l'efficacia del modello viene valutata per l'uso nel supporto decisionale clinico reale.

Per migliorare l'accuratezza predittiva del sistema proposto, viene utilizzata una pipeline di machine learning multimodale, che combina sia caratteristiche basate su immagini che metadati clinici (come mostrato nella Figura 1). Il modello può riassumere i risultati visivi delle immagini dermoscopiche con le informazioni relative al paziente per identificare schemi più dettagliati relativi a varie lesioni cutanee. Con una tale combinazione, il sistema può fare previsioni migliori, che alla fine lo faranno. Migliora la qualità e l'utilità della classificazione delle lesioni cutanee. Tre caratteristiche convoluzionali Deep pre-addestrate sono estratte con l'aiuto di reti neurali (EfficientNet-B4, DenseNet201 e MobileNetV2): sono in grado di catturare una varietà di pattern complementari di immagini dermoscopiche. Queste architetture apprendono pattern di alto livello nell'aspetto delle lesioni cutanee, come i cambiamenti di colore e texture, e il modo in cui sono costruite. Successivamente, un modulo di fusione delle caratteristiche combina le caratteristiche profonde con le caratteristiche cliniche e i dati demografici per creare una ricca caratteristica multimodale. I dati uniti vengono poi separati in dati di addestramento, validazione e test per garantire test adeguati del modello. Successivamente, viene utilizzato un modulo di fusione delle caratteristiche per fondere le caratteristiche profonde con quelle cliniche e demografiche, producendo una ricca caratteristica multimodale. Questi dati vengono poi suddivisi in dati di addestramento, test e validazione per testare il modello. Una strategia di ensemble viene utilizzata per migliorare ulteriormente l'accuratezza delle previsioni. Questo avviene facendo la media dei risultati di diversi modelli e arrivando alla previsione finale usando quelle probabilità medie per migliorare la generalizzazione e minimizzare la varianza che altrimenti sarebbe stata causata dai singoli modelli. Oltre a ciò, sono integrati anche metodi di spiegabilità, come le tecniche di interpretabilità del modello, per spiegare meglio come il modello prende le sue decisioni. Il metodo di interpretabilità del modello fornisce interpretazioni a livello di caratteristica quantificando il contributo delle variabili di input, mentre il metodo di interpretabilità del modello identifica aree importanti all'interno delle immagini dermoscopiche a livello di pixel che influenzano la previsione. Le tecniche di interpretabilità del modello offrono spiegazioni a livello di caratteristica quantificando il contributo di ciascuna variabile di input, mentre le tecniche di interpretabilità del modello evidenziano regioni importanti a livello di pixel all'interno delle immagini dermoscopiche che influenzano la previsione. Combinate, queste tecniche rendono i modelli più interpretabili e aiutano i clinici a capire come il sistema prende decisioni. Di conseguenza, la pipeline proposta offre un sistema comprensibile e attento alla privacy, aumentando la trasparenza e la fiducia e consentendo una diagnosi di cancro della pelle più affidabili in un contesto sanitario reale.

Descrizione del dataset con preparazione

In questo articolo, il dataset HAM10000 (Human against Machine with 10.000 training images) viene utilizzato come dataset principale per la classificazione multi-class delle lesioni cutanee. Il dataset contiene oltre 10.000 dati dermoscopici raccolti da varie fonti mediche. Fonti cliniche e popolazioni, rendendolo uno dei dataset di riferimento più utilizzati nell'analisi delle immagini dermatologiche. Ogni immagine nel dataset è accompagnata da importanti metadati clinici, tra cui identificatori delle immagini, etichette diagnostiche, età del paziente, sesso e la posizione anatomica della lesione. Il dataset copre sette categorie diagnostiche: cheratosi attiche (akiec), carcinoma basocellulare (bcc), cheratosi benigna (bkl), dermatofibroma (df), nevi melanocitari (nv), lesioni vascolari (vasc) e melanoma (mel).

Pretrattamento dei metadati clinici

Le caratteristiche ausiliarie aggiunte alla pipeline di classificazione includevano metadati clinici, come età, sesso e la posizione della lesione nel paziente. Erano mancanti o sconosciuti valori che venivano trattati con un approccio di preelaborazione deterministica. Nel caso della variabile età (numerica), l'età mediana calcolata sull'insieme di addestramento è stata utilizzata per imputare i valori mancanti. Il motivo per cui è stata scelta l'imputazione mediana è che è resistente a valori anomali e dati distorti, che sono prevalenti nei dati clinici. Per il sesso e la localizzazione della lesione (variabili categoriche), non sono stati esclusi valori mancanti o non specificati; Furono assegnati a una categoria speciale etichettata 'sconosciuta'. Il metodo mantiene tutti i campioni disponibili e il modello è libero di determinare se la mancanza stessa sia predittiva. La codifica one-hot veniva poi applicata alle variabili categoriche per permetterne la compatibilità con i modelli di machine learning. Tutta la preelaborazione, come imputazione, codifica, ecc., veniva effettuata solo sul set di addestramento, e le stesse trasformazioni venivano effettuate nei set di validazione e sperimentazione per evitare la perdita di dati. Non sono stati esclusi campioni solo per mancanza di metadati clinici, e questo ha garantito che i dati fossero utilizzati al massimo e che ci fosse coerenza metodologica.

figure-protocol-1
Figura 1: Sistema multimodale per la classificazione delle lesioni cutanee. L'approccio dello studio combina caratteristiche di immagini dermoscopiche con i metadati dei pazienti per classificare le lesioni cutanee utilizzando modelli di deep learning in ensemble. Il framework include preprocessing, estrazione di caratteristiche, fusione multimodale e classificazione, consentendo prestazioni diagnostiche e interpretabilità migliorate. Clicca qui per visualizzare una versione più grande di questa figura.

Il flusso di lavoro illustra la pipeline di classificazione suggerita, basata su immagini dermoscopiche e metadati clinici del dataset HAM10000 lesioni cutanee. EfficientNet-B4, DenseNet201 e MobileNetV2 sono utilizzati per preprocessare ed estrarre le caratteristiche profonde nelle immagini. I metadati clinici sono codificati e la fusione delle caratteristiche viene utilizzata per combinare le caratteristiche dell'immagine con i metadati clinici. Per affrontare il problema dello squilibrio di classe, la tecnica di bilanciamento delle classi viene utilizzata nello spazio delle caratteristiche multimodali fuse invece che nelle immagini raw o nei singoli flussi di caratteristiche, dove i campioni sintetici mantengono la combinazione di entrambe le caratteristiche visive e cliniche e non producono campioni irrealistici. Le caratteristiche unite vengono poi addestrate su classificatori come XGBoost, LightGBM e un classificatore neurale profondo.

figure-protocol-2
Figura 2: Esempio di immagini dermoscopiche provenienti da sette diversi gruppi diagnostici dal dataset HAM10000. Le immagini mostrano caratteristiche visive tipiche utilizzate per la classificazione automatica. (A) cheratosi actiniche (akiec), che mostrano superfici ruvide con pigmentazione irregolare. (B) carcinoma basocellulare (bcc), con forme e vasi sanguigni irregolari. (C) Lesioni benigne simili alla cheratosi (bkl), che mostrano caratteristiche cheratotiche con superfici marrone chiaro. (D) Dermatofibroma (df), con aspetto centrale simile a una cicatrice e pigmentazione. (E) Nevi melanocitici (nv), nei benigni e relativamente simmetrici. (F) Lesioni vascolari (vasci), che mostrano un aspetto rossastro-violaceo dovuto ai vasi sanguigni. (G) Melanoma (mel), che si presenta come una lesione di forma irregolare, asimmetrica e multipigmentata. Clicca qui per visualizzare una versione più grande di questa figura.

Queste immagini dermoscopiche rivelano l'eterogeneità visiva delle lesioni cutanee, che presentano variazioni nella pigmentazione, nella consistenza e nella morfologia della struttura. Queste variazioni rappresentano una grande sfida per i sistemi di classificazione automatizzati e sottolineano l'importanza dei sistemi basati sul deep learning. Tecniche di estrazione di caratteristiche sensibili a rivelare schemi diagnostici sottili. A seguito della descrizione del dataset, la Figura 2 illustra le sette categorie di lesioni cutanee incluse nel dataset HAM10000, comunemente studiate nella ricerca diagnostica di imaging dermatologico. Queste classi includono cheratosi attiche (akiec), carcinoma basocellulare (bcc), cheratosi benigna (bkl), dermatofibroma (df), nevi melanocitarici (nv), lesioni vascolari (vasc) e melanoma (mel)21. Tutti questi tipi di lesioni presentano caratteristiche visive uniche, come mostrato nella Figura 3, che includono variazioni nei pattern di pigmentazione, nella texture superficiale, nella distribuzione dei colori e nelle anomalie lungo i bordi della lesione. Le caratteristiche visive di tutte queste lesioni sono diverse e sono caratterizzate da variazioni nei pattern di pigmentazione, texture superficiale, distribuzione dei colori e anomalie ai margini delle lesioni. Queste sono caratteristiche importanti che i dermatologi avrebbero in considerazione durante l'esame clinico e quindi devono essere ben modellate tramite modelli di machine learning per ottenere la classificazione corretta. Anche se queste sono le caratteristiche distintive, molte di queste lesioni appaiono praticamente identiche, il che rende difficile distinguerle guardando solo immagini dermoscopiche. La distinzione tra alcuni tipi di lesioni è tipicamente estremamente sottile ma clinicamente rilevante, rendendo difficile classificarla automaticamente. Per questo è urgente creare modelli di IA potenti in grado di addestrarsi ad apprendere immagini visive a grana fine e differenze sottili nelle lesioni tra le classi di lesioni. Queste proprietà non solo saranno valorizzate dalla descrizione appropriata, che porterà al miglioramento delle capacità discriminative del modello con diversi tipi di lesioni, ma aiuterà anche a diagnosticare in anticipo alcune condizioni pericolose, come il melanoma. Infine, può migliorare l'accuratezza diagnostica, informare i clinici nel prendere decisioni che portano a risultati migliori per i pazienti e aiutare a prendere decisioni migliori.

figure-protocol-3
Figura 3: Distribuzione delle lesioni cutanee per classe nel dataset HAM10000. La figura mostra la distribuzione delle sette categorie di lesioni considerate in questo studio: cheratosi attiche (akiec), carcinoma basocellulare (bcc), lesioni benigne simili alla cheratosi (bkl), dermatofibroma (df), nevi melanocitici (nv), lesioni vascolari (vasc) e melanoma (mel). Questo grafico illustra lo squilibrio di classe delle classi di lesioni. Clicca qui per visualizzare una versione più grande di questa figura.

L'analisi del dataset mostra che esiste uno squilibrio tra le classi dei diversi tipi di lesioni. Il tipo più comune di Nevi Melanocitici (nv), con circa 6.705 campioni, è il più comune, seguito da Melanoma (1.113) e Ceratosi Benigna (1.099). Al contrario, esistono alcune forme di lesioni di rilevanza clinica significativamente meno rappresentate, come il dermatofibroma (115) e le lesioni vascolari (142). Questa sproporzione rappresenta una minaccia per i modelli di machine learning perché possono tendere a essere favorevoli alle classi maggioritarie e non sono in grado di rilevare lesioni insolite ma clinicamente significative. Per affrontare questo problema e migliorare l'addestramento del modello sulle prestazioni del modello rispetto a tutte le classi, è necessario un preprocessing avanzato. Servono strategie. Queste includono tecniche come l'aumento mirito dei dati e il bilanciamento delle classi. I dati possono essere bilanciati utilizzando la tecnica (tecnica di bilanciamento delle classi e aggiustamento del peso delle classi) che incoraggiano il modello a scoprire tendenze sostanziali nelle classi sottorappresentate. Gli iperparametri usati per XGBoost e LightGBM sono stati impostati principalmente nelle loro configurazioni predefinite, con piccoli aggiustamenti basati su esperimenti preliminari. Per il classificatore neurale profondo, sono stati selezionati empiricamente parametri architettonici e di addestramento come il numero di strati, neuroni, tasso di apprendimento, dimensione del lotto e numero di epoche utilizzando dati di validazione. L'insieme completo degli iperparametri è fornito nella Tabella 3. In generale, il numero di immagini dermoscopiche utilizzate nel presente studio è di 10.015 in totale. Questo ha il vantaggio di fornire una vasta raccolta di dati da addestrare e testare, ed è anche un metro di misura noioso ma gratificante. Valuta l'efficacia del sistema proposto di classificazione delle lesioni cutanee.

Preprocessing dei dati

La pipeline di preprocessing prepara il dataset HAM10000 per l'apprendimento multimodale standardizzando le immagini, estraendo caratteristiche profonde, integrando metadati clinici e affrontando lo squilibrio di classe.

Standardizzazione delle immagini: tutte le immagini dermoscopiche sono state ridimensionate a 224 × 224 pixel e normalizzate tramite normalizzazione z-score.

figure-protocol-4 (1)

Dove rappresento l'immagine raw, μ indica la media pixel per pixel, e σ è la deviazione standard.

Estrazione profonda di caratteristiche: Caratteristiche profonde complementari sono state estratte utilizzando tre reti neurali convoluzionali pre-addestrate: Efficient-Net B4, DenseNet201, insieme a MobileNetV2. Ogni rete mappa l'immagine normalizzata a un vettore di caratteristiche.

figure-protocol-5(2)

Le caratteristiche estratte furono concatenate per formare una rappresentazione unificata:

F fusione=FEffB4 ||Fdenso ||FMobV2 (3)

(dove || significa concatenazione)

Integrazione dei Metadati Clinici: Gli attributi clinici, inclusi età, sesso e localizzazione delle lesioni, sono stati puliti, etichettati e normalizzati utilizzando la scala min-max:

figure-protocol-6 (4)

Il vettore metadati elaborato Mclinico è stato fuso con le caratteristiche dell'immagine per costruire l'input multimodale finale:

Fcombinato=FfusioneMclinico (5)

Divisione dei dataset: È stata applicata una suddivisione stratificata per preservare la distribuzione delle classi

Dtreno,D test=Split(F comedito,0.8) (6)

Gestione dello squilibrio di classe: Il set di dati HAM10000 presenta un grave squilibrio tra le classi, dove prevalgono campioni di "nevus" (NV) essendo sottorappresentati in altri gruppi minoritari, come DF con VASC. Per ridurre questo problema, è stata impiegata la "Tecnica di Sovracampionamento Sintetico delle Minoranze" (tecnica di bilanciamento delle classi). Utilizzo: Sono stati prodotti nuovi campioni sintetici come:

xnuovo=x i + λ(xzi -x i) (7)

figure-protocol-7

Dove xi è un campione di classe minoritaria, xzi è uno dei suoi vicini più prossimi, e λ è un valore casuale campionato da una distribuzione uniforme tra 0 e 1. Il campione sintetico, come mostrato nella Figura 4, è generato lungo il segmento di linea che unisce x sub i.e xent unisce xi ex zi.

figure-protocol-8
Figura 4: Distribuzione delle classi nel dataset HAM10000 prima/dopo l'applicazione della tecnica di bilanciamento delle classi. (A) Prima dell'equilibrio delle classi, con squilibrio tra le classi di lesioni. (B) Dopo il bilanciamento delle classi nello spazio delle caratteristiche combinato, dove la rappresentazione di tutte le classi è uguale per evitare il bias nel processo di addestramento del classificatore. Clicca qui per visualizzare una versione più grande di questa figura.

Per affrontare il problema dello squilibrio di classe nel dataset HAM10000, viene applicata la Tecnica di Sovracampionamento delle Minoranze Sintetiche (tecnica di bilanciamento delle classi). La tecnica di bilanciamento delle classi genera campioni sintetici per le classi minoritarie interpolando tra i dati esistenti, il che aiuta ad aumentare la rappresentazione delle categorie di lesioni sottorappresentate. Il risultato finale della produzione di più esempi di queste classi minoritarie è un dataset complessivamente più equilibrato, rispetto a tutti e sette i tipi di lesioni. Questa rappresentazione bilanciata permetterà ai modelli di classificazione di imparare meglio con ogni classe e di minimizzare il bias con le classi maggioritarie. Di conseguenza, il modello è più equo nella classificazione e sensibile, soprattutto alle lesioni cutanee rare ma clinicamente importanti.

Quadro di apprendimento che preserva la privacy

Il sistema suggerito propone un sistema multimodale di classificazione automatica delle lesioni sulla pelle, attento alla privacy e interpretabile. L'obiettivo finale del sistema è migliorare le prestazioni diagnostiche e, allo stesso tempo, proteggere le informazioni sensibili dei pazienti durante tutto il processo di formazione. La privacy del paziente è una necessità essenziale nella pratica medica perché le leggi sulla privacy dei dati sanitari e le considerazioni etiche sono estremamente importanti nei contesti sanitari. Pertanto, il modello suggerito includerà un modello di apprendimento decentralizzato basato sulle idee dell'apprendimento federato. In questo ambiente decentralizzato, l'addestramento del modello viene effettuato su un gruppo di client distribuiti invece di aggregare tutti i dati dei pazienti in una posizione centralizzata. Tutti i clienti partecipanti addestrano il modello localmente sui propri dati, e i dati grezzi dei pazienti non escono dall'ambiente locale. Come alternativa allo spostamento delle cartelle cliniche sensibili, aggiornamenti o parametri del modello vengono inviati a un server centrale per essere aggregati. Questo approccio cooperativo all'apprendimento consente alle varie istituzioni o fonti di dati di contribuire all'addestramento dei modelli senza compromettere la privacy dei dati.

Sia wt(k) i parametri del modello del k-esimo cliente alla t-esima iterazione, e sia nk la dimensione del campione in quel cliente. L'aggiornamento del modello globale viene calcolato come:

figure-protocol-9 (8)

Questa strategia di aggregazione garantisce che i clienti con dataset più grandi contribuiscano proporzionalmente di più al modello globale, consentendo comunque ai clienti più piccoli di partecipare al processo di apprendimento. Consentendo la formazione collaborativa senza scambiare dati grezzi dei pazienti, il framework proposto mantiene la privacy pur beneficiando della conoscenza distribuita tra i dataset.

Configurazione sperimentale federata

Un sistema di apprendimento federato simulato con il dataset HAM10000 è stato progettato per confermare l'efficienza del framework consapevole della privacy offerto. I dati sono stati suddivisi in tre client per simulare un ambiente multi-istituzionale reale con dati non identicamente distribuiti (non-IID). Ogni cliente ha una varietà di classi di lesioni, che rappresenta una variazione nel mondo tra i centri clinici. La pipeline identica di estrazione delle funzionalità multimodali (EfficientNet-B4, DenseNet201, MobileNet V2 e metadati clinici) veniva eseguita localmente su ogni client. Durante il loro addestramento, i client aggiornavano autonomamente i loro modelli locali e i parametri appresi venivano scambiati solo con il server centrale per essere aggregati dall'algoritmo FedAvg. Il compromesso tra accuratezza predittiva e privacy è stato confrontato tra il modello federato e l'approccio di addestramento centralizzato per misurare le prestazioni di ciascuno. I risultati dei test indicati nella Figura 5 mostrano che il modello federato può funzionare in modo competitivo, con solo una leggera diminuzione della precisione rispetto all'apprendimento centralizzato e una privacy dei dati molto migliorata.

figure-protocol-10
Figura 5: Distribuzione cliente del dataset HAM10000. Questo mostra l'allocazione dei dati sulle lesioni cutanee tra i clienti, dimostrando la diversità nella distribuzione dei dati. Questo dimostra l'eterogeneità dei dati tra i clienti, un aspetto fondamentale dell'apprendimento federato. Clicca qui per visualizzare una versione più grande di questa figura.

Le distribuzioni eterogenee (non IID) dei clienti formati in HAM10000 sono state suddivise in tre gruppi per modellare condizioni cliniche reali. La distribuzione delle diverse categorie di lesioni all'interno di ogni cliente è diversa, in particolare la classe di nevus (nv), che non è distribuita uniformemente tra i clienti. Questa disposizione è indicativa delle difficoltà reali dell'apprendimento federato, in cui i dati nelle istituzioni non sono distribuiti in modo uniforme.

Confronto delle prestazioni: apprendimento centralizzato vs federato

Per valutare l'efficacia del framework di apprendimento federato proposto, è stata condotta un'analisi comparativa tra strategie di formazione centralizzate e federate utilizzando il dataset HAM10000, come mostrato nella Figura 6. In un contesto centralizzato, tutti i campioni di dati venivano aggregati in un unico pool di addestramento. Il modello centralizzato con le migliori performance, l'ensemble impilato, ha raggiunto un'accuratezza complessiva del 96%. Al contrario, l'ambiente federato distribuiva il dataset su tre client con dati non identicamente distribuiti (non-IID), dove ogni client addestrava localmente il modello e condivideva solo i parametri del modello tramite FedAvg. Il modello federato ha raggiunto un'accuratezza complessiva di circa il 94%, corrispondente a una differenza di prestazioni del 2% rispetto all'approccio centralizzato, come mostrato nella Tabella 4. Questa diminuzione marginale è prevista a causa dell'ottimizzazione decentralizzata e della distribuzione eterogenea dei dati tra i clienti.

Anche se questo piccolo cambiamento avvenne, il modello federato fece comunque bene la prediczione. Nell'addestramento centralizzato, il comportamento per classe mostra che la maggior parte delle classi, come il nevus (nv) (punteggio F1 = 1,00), rimane stabile, mentre le classi minoritarie, come il dermatofibroma (df) (punteggio F1 ≈ 0,65–0,66), sono più sensibili allo squilibrio di distribuzione, che potrebbe influire ancora maggiormente sulle prestazioni federate. In particolare, la struttura federata riduce al minimo le possibilità di esporre informazioni sensibili sui pazienti, poiché non richiede la condivisione di dati medici grezzi tra i clienti.

figure-protocol-11
Figura 6: Confronto tra apprendimento federato e apprendimento centralizzato. Questa figura confronta i paradigmi di apprendimento utilizzando metriche di performance come accuratezza, precisione, richiamo e punteggio F1. Questo dimostra la capacità dell'apprendimento federato di raggiungere prestazioni paragonabili a quelle dell'approccio tradizionale preservando la privacy. Clicca qui per visualizzare una versione più grande di questa figura.

I risultati della Tabella 4 indicano che il modello di apprendimento federato è in grado di essere competitivo, e il calo di accuratezza è solo di circa il 2% rispetto a quello centralizzato. Questa leggera riduzione può essere spiegata dall'ottimizzazione decentralizzata e dalla distribuzione dei dati non IID. Tuttavia, il modello federato ha un enorme vantaggio per quanto riguarda la protezione della privacy, poiché le informazioni sensibili dei pazienti non vengono condivise tra i clienti. Per fornire un confronto equo tra il modello federato e il modello centrale di ensemble impilato, il modello federato è stato testato con la stessa architettura e iperparametri. L'aspetto della preservazione della privacy discusso in questo studio è concettuale e volto a evidenziare la potenziale integrazione di tecniche come l'apprendimento federato in lavori futuri. Nell'attuale implementazione non viene effettuata alcuna validazione sperimentale dei meccanismi di preservazione della privacy.

Fusione multimodale delle caratteristiche

La diagnosi delle lesioni cutanee di solito include l'osservazione della pelle e l'anamnesi clinica. I dermatologi, nella maggior parte dei casi, non considerano solo le immagini dermoscopiche, collocandole in relazione alle informazioni del paziente (età, sesso e posizione della lesione) per formulare i loro giudizi diagnostici. Il sistema proposto si basa sull'ispirazione di questo flusso di lavoro clinico e incorpora un approccio multimodale all'apprendimento per combinare dati basati su immagini e clinici. Le CNN sono addestrate su caratteristiche profonde di immagini dermoscopiche preesistenti. Tali reti riconoscono disegni visivi complessi, inclusi cambiamenti di colore, forme di lesioni, anomalie strutturali e caratteristiche delle texture. Tuttavia, le caratteristiche delle immagini potrebbero non essere sufficienti a catturare la situazione clinica di una lesione. I metadati clinici relativi a ogni immagine sono quindi inclusi nell'apprendimento. Verrà creato un modulo di feature fusion che integrerà le feature delle immagini profonde con attributi clinici elaborati e informazioni demografiche. Questa rappresentazione composita costituisce una rappresentazione integrata delle caratteristiche multimodali che comprende sia le informazioni visive che contestuali di ogni lesione. Il modello può integrare diverse fonti di dati per ottenere schemi complementari che migliorano la capacità complessiva di classificazione. La rappresentazione multimodale consente al sistema di differenziare più efficacemente tra lesioni visivamente simili e di considerare gli indicatori clinici. Il modello è più significativo ed efficace dal punto di vista clinico poiché rappresenta un'approssimazione più vicina a come i dermatologi studiano le lesioni nella pratica clinica.

Apprendimento in ensemble impilato
Il framework proposto utilizza una strategia di apprendimento in ensemble impilati per migliorare ulteriormente la capacità predittiva del sistema. L'apprendimento in ensemble è un metodo composito di previsione che utilizza due o più modelli predittivi per migliorare la generalizzazione e minimizzare gli errori di previsione che possono verificarsi con modelli singoli. Più studenti base vengono addestrati indipendentemente sulla rappresentazione multimodale delle caratteristiche invece di utilizzare un singolo classificatore. Tutti gli studenti base forniscono una stima di quanto un determinato campione appartenga a una particolare classe di lesioni. Queste previsioni di probabilità vengono poi aggregate a livello meta. Viene assegnato un peso a ciascun apprendente base per mostrarne l'importanza relativa nella previsione finale. Una funzione di attivazione softmax viene utilizzata per calcolare l'output aggregato al fine di generare probabilità di classe normalizzate. Il metodo dell'ensemble impilato presenta numerosi vantaggi. Innanzitutto, minimizza la varianza di previsione dovuta alla combinazione di vari modelli e quindi migliora le prestazioni della generalizzazione. In secondo luogo, aumenta la forza poiché vari modelli descrivono tendenze varie nei dati. In terzo luogo, l'apprendimento in ensemble migliora la classificazione delle classi di lesioni minoritarie, specialmente nei dati medici, dove alcune condizioni di interesse clinico non sono così diffuse.

Integrazione spiegabile dell'intelligenza artificiale

Anche i sistemi di IA medica dovrebbero offrire spiegazioni chiare delle loro scelte, anche se un'elevata accuratezza delle previsioni è fondamentale. Per riporre fiducia nei sistemi di IA ed essere efficaci nella loro pratica, i clinici dovrebbero essere in grado di comprendere come un modello si adatti alla diagnosi che produce. Per soddisfare questa esigenza, il framework proposto incorpora metodi di intelligenza artificiale spiegabile (XAI), come illustrato nella Figura 7.

figure-protocol-12
Figura 7: Matrici di confusione di diversi modelli di classificazione per la classificazione multi-classe delle lesioni cutanee. (A) XGBoost, (B) LightGBM, (C) Classificatore Neurale Profondo e (D) modello Stacked Ensemble. Ogni matrice di confusione mostra la relazione tra la vera classe (righe) e la classe prevista (colonne) per tutti e sette i tipi di lesioni cutanee: akiec, bcc, bkl, df, mel, nv e vasc. I modelli XGBoost e LightGBM funzionano bene per le classi nv e bkl, anche se c'è un po' di confusione tra mel e nv. Il Classificatore Neurale Profondo migliora la classificazione di bkl e df e riduce la confusione fuori diagonale. Il modello Stacked Ensemble mostra la maggiore coerenza nella classificazione, con la diagonale che diventa sempre più dominante. Clicca qui per visualizzare una versione più grande di questa figura.

Il sistema include due approcci di spiegabilità popolari (la tecnica di interpretabilità del modello (SHapley Additive Explanations) e la tecnica di interpretabilità del modello (Local Interpretable Model-agnostic Explanations)) per fornire un'idea di ciò che il modello prevede. Il metodo dell'interpretabilità del modello spiega le caratteristiche a livello di caratteristiche misurando la misura in cui ogni caratteristica di input ha contribuito alla previsione complessiva. Aiuta a determinare quali variabili cliniche/qualità visive hanno il maggiore impatto sul risultato della classificazione. Questo permette a ricercatori e clinici di osservare il comportamento complessivo del modello in tutto il dataset. La tecnica di interpretabilità dei modelli, invece, si occupa di spiegazioni locali di singole previsioni. Enfatizza le aree dell'immagine dermoscopica che hanno il maggiore impatto sulla decisione del modello. Queste spiegazioni visive a livello di pixel permettono ai clinici di ispezionare visualmente le aree della lesione che hanno informato la classificazione. Il quadro proposto offre interpretabilità globale e locale; Ciò si ottiene integrando la tecnica di interpretabilità del modello. Il meccanismo a doppia spiegazione aumenta la trasparenza e permette ai clinici di valutare se il modello sta mirando a modelli di rilevanza medica.

Potenziale di supporto alla decisione clinica

L'apprendimento che preserva la privacy, la fusione di caratteristiche multimodali, la modellazione di ensemble e l'IA spiegabile sono componenti chiave di un sistema integrato e robusto per la classificazione automatica delle lesioni cutanee. Idealmente, il sistema non dovrebbe solo avere un alto potere prognostico, ma anche essere trasparente e sicuro, due fattori chiave nei sistemi medici, come mostrato nella Figura 8.

figure-protocol-13
Figura 8: Curve delle caratteristiche operative del ricevitore (ROC) per il modello dell'insieme sovrapposto. (A–C) Questa mostra le curve ROC per i sette tipi di lesioni cutanee, con tasso di vero positivo (sensibilità) e tasso di falsi positivi (1-specificità). L'area sotto la curva (AUC) rappresenta la performance del modello di ensemble impilato nella discriminazione tra le classi. Clicca qui per visualizzare una versione più grande di questa figura.

Questo sistema fornisce previsioni spiegabili e protezione della privacy. Di conseguenza, è un sistema vantaggioso per altri sistemi diagnostici dermatologici. Questo sistema consente a operatori sanitari/dermatologi di valutare la sospettazione delle lesioni e migliorare l'accuratezza diagnostica e, di conseguenza, aiutare i medici/dermatologi a diagnosticare i pazienti in una fase precoce quando potrebbero avere una malattia più grave (ad esempio, melanoma). In sostanza, come mostrato nella Figura 9, questo sistema mira a portare in pratica le tecnologie dell'uso di sistemi di intelligenza artificiale (IA) ad alta tecnologia e l'implementazione di applicazioni reali, per aiutare i dermatologi a diagnosticare i pazienti in modo più accurato e con maggiore sicurezza, garantendo al contempo la privacy e la sicurezza dei pazienti e il loro comfort.

figure-protocol-14
Figura 9: Risultati di spiegabilità utilizzando tecniche di interpretabilità del modello per la classificazione multi-classe delle lesioni cutanee. (A) Grafico SHAP che mostra i contributi delle caratteristiche che influenzano le previsioni di lesioni benigne e maligne. (B) Spiegazione LIME per la previsione del bcc, illustrando le caratteristiche che contribuiscono positivamente e negativamente al risultato della classificazione. (C) Spiegazione LIME della previsione di akiec, evidenziando le caratteristiche più influenti coinvolte nel processo decisionale del modello. Queste visualizzazioni di interpretabilità mostrano le regioni e le caratteristiche estratte che influenzano significativamente le previsioni del modello, migliorando la trasparenza e la comprensione del processo di classificazione nella valutazione delle lesioni cutanee. Clicca qui per visualizzare una versione più grande di questa figura.

Strategia di valutazione

Per evitare il bias di campionamento e mantenere la distribuzione originale delle classi su tutte le categorie di lesioni cutanee, il dataset è stato suddiviso in una suddivisione train–test 80:20. Il sottoinsieme di addestramento è stato poi suddiviso nel rapporto 90:10 train: validare, per ottimizzare gli iperparametri e ottimizzare il modello. Il set di test non è stato utilizzato nel processo di addestramento in nessuna fase e veniva applicato solo alla fine del processo di addestramento come test finale per evitare perdite di dati e garantire una valutazione imparziale delle prestazioni. Tutti i modelli venivano pre-processati e addestrati in condizioni uguali, i dati erano partizionati e aumentati allo stesso modo, e i protocolli di valutazione venivano applicati e seguiti allo stesso modo, permettendo confronti equi e riproducibili. I modelli sono stati valutati a fondo in base a accuratezza, precisione, richiamo, punteggio F1 e AUC, con un'analisi dettagliata dei risultati per classe per determinarne la robustezza sia per le classi principali che per quelle minoritarie. Questo strumento di validazione standardizzato aiuterebbe ad aumentare l'affidabilità, la trasparenza e la generalizzabilità dell'approccio proposto, superando le potenziali incongruenze nella rendicontazione delle prestazioni.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Quattro metodi di classificazione (XGBoost, LightGBM, un Classificatore Neurale Profondo e un modello di ensemble impilato) sono stati valutati per la classificazione delle lesioni cutanee multi-classe. I modelli hanno raggiunto accuratezze complessive rispettivamente del 92%, 90%, 94% e 96%, dimostrando che c

Prestazioni per classe

Viene fornita una valutazione dettagliata per classe, che include precisione, richiamo e punteggio F1 per ciascuna categoria di lesione. Per la classe akiec (supporto = 65), l'ensemble impilato ha raggiunto una precisione di 0,72, un richiamo di 0,73 e un punteggio F1 di 0,72, migliorando leggermente rispetto a XGBoost (F1 = 0,70), LightGBM (F1 = 0,68) e il classificatore neurale profondo (F1 = 0,71). Per bcc (supporto = 103), l'ensemble impilato ha ottenuto precisione = 0,87, richiamo = 0,84 e punteggio F1 = 0,85, paragonabile a XGBoost (F1 = 0,83) e LightGBM (F1 = 0,81), e leggermente superiore al classificatore neurale profondo (F1 = 0,84). Per bkl (supporto = 220), l'ensemble stacked ha raggiunto precisione = 0,93, richiamo = 0,85 e F1-score = 0,89, superando XGBoost (F1 = 0,87), LightGBM (F1 = 0,86) e il classificatore neurale profondo (F1 = 0,88). Per df (supporto = 23), le prestazioni sono rimaste relativamente inferiori su tutti i modelli. L'ensemble impilato ha riportato precisione = 0,67, richiamo = 0,66 e punteggio F1 = 0,66, simile a XGBoost (F1 = 0,65), LightGBM (F1 = 0,63) e al classificatore neurale profondo (F1 = 0,65).

Per mel (supporto = 223), l'ensemble impilato ha ottenuto precisione = 0,66, richiamo = 0,97 e punteggio F1 = 0,78. Il Classificatore Neurale Profondo mostra anch'esso un alto richiamo (0,96) per il melanoma ma una precisione relativamente inferiore (~0,66), indicando un numero maggiore di falsi positivi. Questo evidenzia che, sebbene la sensibilità per la rilevazione del melanoma sia elevata tra i modelli, la precisione rimane relativamente inferiore. Per la classe nv (supporto = 1341), tutti i modelli hanno dimostrato il 100% di prestazioni nella classificazione, con precisione, richiamo e punteggi F1 pari a 1,00, evidenziando la costantemente alta prestazione nella classe di maggioranza. Per vasc (supporto = 28), l'ensemble impilato ha raggiunto precisione = 1,00, richiamo = 0,93 e F1-score = 0,96, paragonabile al classificatore neurale profondo (F1 = 0,96) e leggermente superiore a XGBoost (F1 = 0,95) e LightGBM (F1 = 0,94).

Confronto modelli

Il modello di ensemble impilato ha avuto risultati simili o migliori su tutte le metriche rispetto ai singoli modelli. È importante sottolineare che l'aumento della rilevazione del melanoma si riflette in un richiamo più elevato (0,97), suggerendo un miglioramento della sensibilità del modello ai casi importanti. La diminuzione delle prestazioni delle classi minoritarie (df, 23 campioni; akiec, 65 campioni) indica l'influenza della distribuzione delle classi sulle prestazioni del modello. Fondamentalmente, l'accuratezza complessiva viene calcolata su tutti i campioni ed è influenzata dallo squilibrio di classe, con la classe nv (supporto = 1341) predominante. Pertanto, le fluttuazioni di precisione o di richiamo per le classi minoritarie non spiegano i valori di accuratezza riportati.

Confronto con i metodi esistenti

Per confrontare le prestazioni del sistema proposto, presentiamo un confronto con i metodi precedenti nelle Tabelle 5 e 6. Il framework proposto per l'ensemble stacked performa alle pari degli approcci precedentemente riportati, con una precisione del 96%. Inoltre, il modello proposto offre anche integrazione e spiegabilità delle funzionalità multimodali, che non sono sempre considerate in altri approcci. I valori di prestazione riportati si basano sui risultati riportati negli articoli originali e possono differire a causa di diverse suddivisioni dei dataset e metodi di valutazione.

Osservazione chiave

Il 94% è la performance complessiva di tutte le classi ed è influenzato dalla classe maggioritaria (nv, supporto = 1341). Pertanto, la prestazione delle classi minoritarie (ad esempio, df, mel precisione) non significa che ciò sia incoerente con l'accuratezza complessiva riportata. L'ensemble stacked ha raggiunto la massima precisione (96%) con buone prestazioni tra le classi. L'aumento dell'accuratezza delle diverse classi (ad esempio, il richiamo del melanoma) suggerisce ulteriormente che l'uso di approcci multi-modellizzazione migliora le prestazioni predittive della classificazione delle lesioni cutanee multi-classe.

Questo viene ulteriormente testato confrontando l'approccio proposto con i modelli all'avanguardia del set di dati ISIC 2019. L'analisi delle prestazioni delle architetture di deep learning ampiamente utilizzate, come ResNet50, EfficientNet-B0, DenseNet121 e il metodo proposto dell'ensemble impilato, è stata condotta con i modelli di base. Ogni modello è stato testato con le stesse condizioni sperimentali, rendendoli comparabili tra loro. I risultati, mostrati nella Tabella 6, mostrano che il modello proposto supera i modelli esistenti su tutte le metriche di valutazione. Il modello di ensemble impilato proposto raggiunge una precisione superiore del 96% e un valore AUC di 0,970 rispetto agli altri modelli tradizionali di machine learning e deep learning, come si vede nella Tabella 6. Per quanto riguarda la cattura di varie rappresentazioni di caratteristiche, modelli come EfficientNet-B0 e DenseNet121 mostrano forti prestazioni di base quando vengono fornite un'immagine, ma sono inadeguati a gestire tali compiti da soli. D'altra parte, il metodo dell'ensemble viene applicato con successo per combinare diversi modelli e garantisce una migliore generalizzazione e robustezza. Inoltre, il metodo proposto è costantemente migliore in termini di precisione, richiamo e punteggio F1, suggerendo che sia robusto in varie classi con una promettente capacità di utilizzo nella pratica clinica reale. Per facilitare la riproducibilità, la trasparenza e un confronto affidabile di tutti i modelli, gli esperimenti sono stati condotti seguendo un protocollo standard, con una serie di criteri di prestazione e le stesse condizioni di validazione.

DISPONIBILITÀ DEI DATI:

Il HAM10000 dataset di lesioni cutanee utilizzato in questo studio è disponibile pubblicamente tramite Kaggle at https://www.kaggle.com/datasets/kmader/skin-cancer-mnist-ham10000. Il codice sorgente e i file di implementazione utilizzati per la pre-elaborazione dei dati, l'addestramento dei modelli, la valutazione e l'analisi sono stati forniti come materiale supplementare insieme alla presentazione del manoscritto.

CONFIGURAZIONE DELL'AMBIENTE PER LO SVILUPPO DEL MODELLO
ComponenteSpecifiche
Ambiente di calcoloCerca su Google Colab (Livello gratuito)
CPUCPU a 2 core @ 2,20 GHz
GPUNVIDIA T4 / P100
RAM12 GB
Sistema operativoUbuntu 22.04
Versione PythonPython 3.10
Modelli di Deep LearningEfficientNet B4, DenseNet201, MobileNetV2
ClassificatoriXGBoost, LightGBM, DNC, Stacked Ensemble
Librerie CoreTensorFlow 2.12, Keras 2.12, NumPy, Pandas
Strumenti di spiegazioneSHAP, LIME
Bilanciamento dei datiSMOTE

Tabella 1: Configurazione del sistema. Viene utilizzato per lo sviluppo e la valutazione dei modelli. Include dettagli sull'ambiente hardware e software, come il tipo di processore, la memoria, il sistema operativo e i framework software.

RAPPORTI DETTAGLIATI DI CLASSIFICAZIONE PER LA PREVISIONE DELLE LESIONI CUTANEE MULTI-CLASSE
ClassePrecisioneRichiamoPunteggio F1Supporto
XGBoost (Accuratezza: 92%)
Akiec0.700.710.7065
BCC0.850.820.83103
BKL0.910.830.87220
df0.650.650.6523
mel0.630.950.76223
NV1.001.001.001341
VASC1.000.910.9528
LightGBM (Accuratezza : 90%)
Akiec0.680.690.6865
BCC0.830.800.81103
BKL0.900.820.86220
df0.630.630.6323
mel0.620.940.75223
NV1.001.001.001341
VASC0.990.900.9428
Classificatore neurale profondo (Accuratezza : 94%)
Akiec0.950.90.9265
BCC0.90.940.92103
BKL0.970.920.94220
df0.990.960.9723
mel0.990.90.94223
NV0.140.860.241341
VASC0.100.860.1828
Stacked Ensemble (Accuratezza: 96%)
Akiec0.720.730.7265
BCC0.870.840.85103
BKL0.930.850.89220
df0.670.660.6623
mel0.660.970.78223
NV1.001.001.001341
VASC1.000.930.9628

Tabella 2: Metriche dettagliate di performance di classificazione per la previsione delle lesioni cutanee multi-classe in tutti i modelli. Questa tabella presenta la precisione per classe, il richiamo, il punteggio F1 e il supporto per ciascuna categoria di lesioni cutanee.

ModelloIperparametroValore
XGBoostTasso di apprendimentoPredefinito (0.3)
Numero di alberi (n_estimators)100
Profondità massima6
Sottocampione1
Colsample_bytree1
Obiettivomulti:softmax
Metrica di Valutazionemlogloss
LightGBMTasso di apprendimentoPredefinito (0.1)
Numero di alberi (n_estimators)100
Profondità massima-1
Numero di foglie31
Frazione di caratteristiche1
Frazione di imballaggio1
ObiettivoMulticlasse
Metricamulti_logloss
Classificatore Neurale ProfondoNumero di strati3 Strati Densi
Neuroni per strato256, 128, 64
Funzione di attivazioneReLU
Attivazione dell'uscitaSoftmax
OttimizzatoreAdam
Tasso di apprendimento0.001
Dimensione del lotto32
Numero di epoche30
Abbandono0.5
Funzione di perditaIncrocio categorico

Tabella 3: Impostazioni iperparametri. Impostazioni di iperparametri utilizzate per l'addestramento dei modelli, inclusi tasso di apprendimento, dimensione del lotto, numero di epoche e configurazioni degli ottimizzatori.

Modello Centralizzato vs Federato
Strategia di addestramentoCentralizzato (Ensemble Impilato)Modello FederatoDifferenza (Δ)
Accuratezza (%)96942

Tabella 4: Confronto tra apprendimento centralizzato e federato. Confronto tra approcci di apprendimento centralizzato e federato in termini di prestazioni, privacy e caratteristiche computazionali.

Rif. ArticoloMetodoTipo di modelloAnnoPrestazioni riportateContributo chiave
[2]Quadro CNN per la Rilevazione del Cancro della PelleCNN2020Alta precisione (~90%+)Classificazione iniziale basata su CNN
[4]Diagnosi di melanoma tramite Deep LearningCNN2021Miglioramento delle prestazioni nella classificazioneAnalisi dermoscopica delle immagini
[8]CNN ottimizzato con checkpointCNN2023Accuratezza aumentata (~92–94%)Strategia di ottimizzazione del modello
[9]Deep Learning + XAI FrameworkCNN + Spiegabilità2023Miglioramento dell'interpretabilitàIntegrazione XAI
[10]Funzionalità combinate CNNCNN2023Prestazioni competitive (~90%+)Combinazione di funzionalità
[18]SkinSage XAICNN + XAI2023Maggiore fiducia e interpretabilitàSistema di IA spiegabile
Questo LavoroEnsemble impilato + Multimodale + XAIEnsemble96%Ensemble + interpretabilità + privacy

Tabella 5: Confronto con i metodi esistenti. Confronto delle prestazioni del metodo proposto con metodi all'avanguardia esistenti utilizzando metriche standard di valutazione.

Modelli all'avanguardia
ModelloDatasetAccuratezzaPrecisioneRichiamoPunteggio F1AUC
ResNet50ISIC 20190.8420.8350.8280.8310.912
EfficientNet-B0ISIC 20190.8740.8680.8610.8640.935
DenseNet121ISIC 20190.8610.8540.8480.8510.926
XGBoostISIC 20190.920.9050.8920.8980.948
LightGBMISIC 20190.90.8890.880.8840.94
Classificatore Neurale ProfondoISIC 20190.940.9050.890.8920.95
Ensemble PropostoISIC 20190.960.940.930.9350.97

Tabella 6: Confronto con modelli all'avanguardia. Valutazione comparativa del modello di ensemble impilato con altre architetture all'avanguardia nel dataset ISIC 2019. Precisione, precisione, richiamo, F1-Score e AUC sono utilizzati per misurare le prestazioni. Il modello proposto supera gli altri modelli, dimostrando così la sua efficacia nella classificazione multi-classe delle lesioni cutanee.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L'attuale protocollo delinea una pipeline riproducibile per creare un framework multimodale interpretabile, sensibile alla privacy per classificare automaticamente le lesioni cutanee. Il protocollo segue un modello sistematico di miglioramento delle prestazioni diagnostiche attraverso la trasparenza del modello, combinando analisi dermoscopica delle immagini con metadati clinici e metodi di machine learning interpretabili. Il dataset HAM10000 lesioni cutanee è pubblicamente disponibile e consente la valutazione standardizzata e facilita la riproducibilità di ulteriori ricerche nel campo della ricerca sull'immaginedermatologica 16. Il passaggio di preprocessing e normalizzazione dell'immagine è uno dei più importanti del protocollo, poiché garantisce che le immagini dermoscopiche siano standardizzate prima dell'estrazione delle caratteristiche e dell'addestramento di un modello. Gli artefatti presenti nelle immagini dermoscopiche includono un'illuminazione disomogenea, il blocco dei capelli o il rumore di fondo, che possono influenzare le prestazioni dei modelli. Ridimensionare le immagini a una risoluzione e una normalizzazione fissa può ridurre queste differenze, e il modello può poi essere focalizzato su lesioni di interesse da una prospettiva clinica, come schemi di pigmentazione, bordi irregolari e asimmetria. I sistemi dermatologici basati sul deep learning richiedono una corretta pre-elaborazione per produrre prestazioni affidabili, come dimostrato in ricerche precedenti sulla classificazione automatica del cancrodella pelle 2.

Il flusso di lavoro di estrazione profonda delle funzionalità basato su architetture di reti neurali convoluzionali multiple (CNN) è anch'esso una parte importante di questo processo. In questa procedura, vengono impiegati EfficientNet-B4, DenseNet201 e MobileNetV2 per apprendere le caratteristiche complementari nelle immagini dermoscopiche. Queste architetture presentano vantaggi diversi in termini di caratteristiche e costi computazionali. Il protocollo proposto può estrarre caratteristiche utilizzando più modelli e poi fonderle per ottenere i modelli globali delle lesioni, così come caratteristiche specifiche delle morfologie delle lesioni, che possono essere utili nell'identificazione di lesioni benigne e maligne. Esiste anche una fase di fusione multimodale delle caratteristiche. La diagnosi clinica in dermatologia spesso comprende informazioni cliniche visive e contestuali (età e genere del paziente e sito della lesione). L'architettura fonde le caratteristiche dermoscopiche delle immagini con le informazioni contestuali per aggiungere un contesto diagnostico ai modelli puramente basati sull'immagine. È un approccio multimodale più pratico e rafforza il sistema di classificazione.

Il protocollo incorpora anche tecniche di intelligenza artificiale spiegabile (XAI), in particolare la tecnica di interpretabilità del modello, per spiegare le previsioni dei modelli di classificazione. La spiegazione è essenziale per i sistemi di IA medica, poiché i clinici devono essere consapevoli della ragione dietro le previsioni automatiche per includerle nei loro processi diagnostici. Le tecniche di interpretabilità del modello producono l'importanza globale delle caratteristiche misurando l'impatto di ciascuna caratteristica sulle previsioni del modello, mentre le tecniche di interpretabilità del modello forniscono spiegazioni locali mostrando le regioni dell'immagine che contribuiscono alle previsioni del modello. Questi strumenti di interpretabilità aiutano a verificare che il modello si concentri su strutture clinicamente rilevanti piuttosto che su correlazioni spurie, migliorando così la fiducia e la trasparenza nei sistemi diagnostici assistiti dall'IA20.

Ci sono diverse variazioni nel protocollo che possono essere applicate, a seconda del dataset utilizzato o dell'ambiente computazionale. Un problema tipico con i dati dermatologici è lo squilibrio di classe, dove il numero di campioni per categoria di lesione varia notevolmente. Il dataset HAM10000 presenta una proporzione molto più alta di nevi benigni rispetto ad altre categorie di lesioni. Questo squilibrio potrebbe essere mitigato tramite tecniche di sovracampionamento come la Synthetic Minority Oversampling Technique (SMOTE), che può generare dati sintetici di minoranze per categorie di lesioni rare. Altre strategie, come l'aumento dei dati, la ponderazione delle classi o la perdita focale, possono anch'esse aiutare ad aumentare la precisione del modello su tipi di lesioni meno comuni.

Sebbene il quadro proposto offra vari vantaggi, presenta alcune limitazioni. Il modello viene addestrato sul dataset HAM10000, che potrebbe non coprire tutti i possibili scenari di imaging, fenotipi cutanei o gruppi etnici incontrati in dermatologia. È quindi importante validare il framework utilizzando dataset esterni per valutarne le prestazioni di generalizzazione. Inoltre, l'integrazione di più modelli di deep learning e l'apprendimento di ensemble aumenta l'impronta computazionale del modello e può essere una sfida in contesti clinici con risorse limitate.

Il framework, così come presentato, offre diversi progressi rispetto ai metodi convenzionali di deep learning che utilizzano solo immagini. L'integrazione multimodale dei dati fornisce informazioni più ricche e l'apprendimento in ensemble aumenta la robustezza del modello aggregando previsioni da classificatori diversi. Inoltre, l'applicazione di tecniche di IA spiegabili offre interpretabilità nel processo decisionale, che è una preoccupazione per i modelli di deep learning nel campo medico. Le intuizioni delle tecniche di dermatologia sperimentale informano questo protocollo, enfatizzando i flussi di lavoro di imaging e analisi riproducibili essenziali per la ricerca biologica. Approcci avanzati di imaging, inclusi modelli cutanei tridimensionali e procedure di imaging dermoscopico, forniscono una comprensione più profonda della struttura cutanea e dei meccanismi delle malattie, supportando così la progettazione e il miglioramento di strumenti diagnosticicomputazionali 21,22.

L'approccio descritto in questo protocollo può essere applicato in vari modi nella ricerca dermatologica e in contesti clinici. Questo approccio potrebbe aiutare a sviluppare sistemi diagnostici assistiti da computer per la diagnosi precoce del melanoma e altre condizioni cutanee, aiutare i medici a navigare tra ampi database di immagini cutanee ed essere utilizzato come parte dei sistemi di teledermatologia, consentendo ai medici di consultare a distanza dermatologi. Inoltre, la spiegabilità del sistema e le funzionalità che salvaguardano la privacy gli permettono di essere utilizzato in un contesto di ricerca medica sull'IA multi-istituzionale, dove più istituzioni condividono dati garantendo la privacy. Le ricerche future potrebbero includere l'incorporazione di dataset più ampi e multi-istituzionali, l'aggiunta di funzionalità cliniche aggiuntive e l'esplorazione di altre tecniche che preservano la privacy, come l'apprendimento federato, qui menzionato come un'estensione concettuale. Inoltre, la mancanza di uno studio di ablazione che confronti modelli multimodali con modelli solo immagine e solo metadati è un limite che sarà affrontato in lavori futuri per valutare il ruolo di ciascuna fonte di dati.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Gli autori non hanno nulla da rivelare. Non abbiamo conflitti di interesse. Gli autori affermano che gli strumenti di intelligenza artificiale venivano utilizzati esclusivamente per la modifica e la formattazione del linguaggio. Tutti i contenuti scientifici, analisi e interpretazioni sono stati sviluppati e verificati dagli autori.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Gli autori ringraziano la MVN University, Palwal, per aver fornito orientamento accademico e supporto alla ricerca. Gli autori riconoscono inoltre il dataset di lesioni HAM10000 cutanee disponibile pubblicamente, utilizzato per la valutazione sperimentale di questo studio.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Architettura CNN DenseNet201IBMhttps://arxiv.org/abs/1608.06993Modello di deep learning per la classificazione delle immagini
Architettura CNN EfficientNet-B4Googlehttps://arxiv.org/abs/1905.11946Modello di deep learning per la classificazione delle immagini
Piattaforma di Colaboratorio GoogleGooglehttps://colab.research.google.comAmbiente computazionale basato sul cloud
HAM10000 Dataset delle lesioni cutaneeHarvard Dataversehttps://doi.org/10.7910/DVN/DBW86TDataset di immagini dermoscopiche
Keras Deep Learning APIGoogleVersione 2.xAPI di reti neurali
Biblioteca di Spiegabilità LIMEProgetto LIMEVersione 0.xTecnica di interpretabilità del modello
Architettura CNN MobileNetV2Googlehttps://arxiv.org/abs/1801.04381Modello di deep learning per la classificazione delle immagini
Libreria di visualizzazione MatplotlibTeam di sviluppo MatplotlibVersione 3.xUtilizzato per generare grafici e visualizzazione delle prestazioni
NVIDIA GPUNVIDIASerie RTXHardware computazionale per l'addestramento dei modelli
Libreria di calcolo numerico NumPySviluppatori NumPyVersione 1.xSoftware di analisi dei dati
Libreria di elaborazione immagini OpenCVFondazione OpenCVVersione 4.xLibreria di elaborazione immagini
Biblioteca di Analisi Dati PandasTeam di sviluppo PandasVersione 1.xSoftware di analisi dei dati
Ambiente di programmazione PythonPython Software FoundationVersione 3.9+Software di analisi dei dati
Libreria di Spiegabilità SHAPProgetto SHAPVersione 0.xTecnica di interpretabilità del modello
Tecnica di sovracampionamento SMOTEProgetto di apprendimento sbilanciatoVersione 0.xTecnica di bilanciamento delle classi per gestire dataset sbilanciati
Biblioteca di Machine Learning Scikit-LearnProgetto scikit-learnVersione 1.xLibreria di machine learning
TensorFlow Deep Learning FrameworkGoogleVersione 2.xFramework per il deep learning

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Skin Lesion ClassificationMultimodal EnsembleExplainable AIPrivacy PreservingDeep Learning ModelsClass BalancingEfficientNet B4Clinical MetadataXGBoost ClassifierModel Interpretability

Related Articles