$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Diese Studie nutzte öffentlich zugängliche, vollständig anonymisierte dermoskopische Datensätze und beinhaltete keine direkte menschliche Beteiligung; Daher war keine Genehmigung des ethischen Komitees erforderlich. Die Materialtabelle enthält Details zu allen in dieser Studie verwendeten Materialien oder Werkzeugen. Tabelle 1 enthält Details zur Hardware- und Softwareumgebung, wie Prozessortyp, Speicher, Betriebssystem und Software-Frameworks. Tabelle 2 enthält Details zur klassenspezifischen Präzision, Rückruf, F1-Wert und Unterstützung für jede Hautläsionskategorie.
Gesamtablauf des vorgeschlagenen multimodalen Klassifikationsrahmens für Hautläsionen
Der Grundplan dieser Forschung ist es, ein präzises und verständliches Schema der Mehrfachklassifikation von Hautläsionen zu erstellen. Der Workflow beginnt mit der Datenerhebung und Vorverarbeitung des HAM10000 Datensatzes und fährt dann mit der Feature-Extraktion mittels Deep-Learning-Architekturen und der Einbindung klinischer Metadaten über. Anschließend werden mehrere maschinelle Lernklassifikatoren trainiert und optimiert, und ihre Ergebnisse werden in einer Ensemble-Strategie aggregiert. Schließlich werden die Vorhersagen des Modells mithilfe von Erklärbarkeitstechniken interpretiert und die Wirksamkeit des Modells für den Einsatz in der praxisnahen klinischen Entscheidungsunterstützung bewertet.
Um die prädiktive Genauigkeit des vorgeschlagenen Systems zu verbessern, wird eine multimodale maschinelle Lernpipeline verwendet, die sowohl bildbasierte Funktionen als auch klinische Metadaten kombiniert (wie in Abbildung 1 dargestellt. Das Modell kann die visuellen Ergebnisse dermoskopischer Bilder mit den Informationen des Patienten zusammenfassen, um detailliertere Muster verschiedener Hautläsionen zu identifizieren. Mit einer solchen Kombination kann das System bessere Vorhersagen treffen, was letztlich zutrifft. Verbessern Sie die Qualität und Nützlichkeit der Hautläsionklassifikation. Drei vortrainierte konfaltionelle Deep-Merkmale werden mit Hilfe neuronaler Netze extrahiert (EfficientNet-B4, DenseNet201 und MobileNetV2): Sie sind in der Lage, eine Vielzahl komplementärer Muster dermoskopischer Bilder zu erfassen. Diese Architekturen lernen hochrangige Muster darin, wie Hautläsionen aussehen, wie Farb- und Texturwechsel sowie wie sie aufgebaut sind. Anschließend kombiniert ein Feature-Fusion-Modul die tiefgründigen Features mit klinischen Merkmalen und demografischen Daten, um ein reichhaltiges multimodales Feature zu schaffen. Die zusammengeführten Daten werden dann in Trainings-, Validierungs- und Testdaten aufgeteilt, um eine angemessene Modelltestung sicherzustellen. Als nächstes wird ein Feature-Fusion-Modul verwendet, um die tiefen Features mit den klinischen Features und demografischen Daten zu verbinden, um ein reichhaltiges multimodales Feature zu erzeugen. Diese Daten werden dann in Trainings-, Test- und Validierungsdaten aufgeteilt, um das Modell zu testen. Eine Ensemble-Strategie wird verwendet, um die Vorhersagegenauigkeit weiter zu verbessern. Dies geschieht, indem die Ergebnisse mehrerer Modelle gemittelt und die endgültige Vorhersage anhand dieser gemittelten Wahrscheinlichkeiten gemittelt werden, um die Verallgemeinerung zu verbessern und die Varianz zu minimieren, die sonst durch einzelne Modelle verursacht worden wäre. Darüber hinaus werden auch Erklärbarkeitsmethoden wie Modellinterpretierbarkeitstechniken integriert, um weiter zu erklären, wie das Modell seine Entscheidungen trifft. Die Methode der Modellinterpretierbarkeit bietet Interpretationen auf Merkmalsebene, indem der Beitrag von Eingabevariablen quantifiziert wird, während die Methode der Modellinterpretierbarkeit wichtige Bereiche innerhalb dermoskopischer Bilder auf Pixelebene identifiziert, die die Vorhersage beeinflussen. Modellinterpretierbarkeitstechniken bieten Erklärungen auf Merkmalsebene, indem sie den Beitrag jeder Eingabevariablen quantifizieren, während Modellinterpretierbarkeitstechniken wichtige Bereiche auf Pixelebene in dermoskopischen Bildern hervorheben, die die Vorhersage beeinflussen. Zusammen machen diese Techniken die Modelle interpretierbarer und helfen Klinikern, die Entscheidungsprozesse des Systems kennenzulernen. Daher bietet die vorgeschlagene Pipeline ein verständliches und datenschutzbewusstes System, das Transparenz und Vertrauen erhöht und eine zuverlässigere Hautkrebsdiagnose in einer realen Gesundheitseinrichtung ermöglicht.
Datensatzbeschreibung mit Vorbereitung
In diesem Artikel wird der Datensatz HAM10000 (Mensch gegen Maschine mit 10.000 Trainingsbildern) als primärer Datensatz für die Klassifikation mehrerer Hautläsionen verwendet. Der Datensatz enthält über 10.000 dermoskopische Figuren, die aus verschiedenen medizinischen Quellen gesammelt wurden. Klinische Quellen und Populationen, was es zu einem der am weitesten verbreiteten Benchmark-Datensätze in der dermatologischen Bildanalyse macht. Jedes Bild im Datensatz wird von wichtigen klinischen Metadaten begleitet, darunter Bildidentifikatoren, diagnostische Etiketten, Patientenalter, Geschlecht und anatomische Lage der Läsion. Der Datensatz umfasst sieben diagnostische Kategorien: aktinische Keratosen (AKICEC), Basalzellkarzinom (BCC), gutartige Keratose (BKL), Dermatofibrom (DF), melanocytäre Nevi (NV), vaskuläre Läsionen (VASC) und Melanom (Melanom).
Klinische Metadaten-Vorverarbeitung
Ergänzende Merkmale, die der Klassifikationspipeline hinzugefügt wurden, umfassten klinische Metadaten wie Alter, Geschlecht und die Lage der Läsion beim Patienten. Es fehlten oder unbekannte Werte, die durch einen deterministischen Vorverarbeitungsansatz behandelt wurden. Im Fall der Altersvariablen (numerisch) wurde das Medianalter, das auf dem Trainingsset berechnet wurde, zur Imputation der fehlenden Werte verwendet. Der Grund für die Wahl der Medianimputation ist, dass sie gegen Ausreißer und verzerrte Daten resistent ist, die in klinischen Daten verbreitet sind. Für Geschlecht und Läsionsstandort (kategoriale Variablen) wurden fehlende oder nicht spezifizierte Werte nicht ausgeschlossen; sie wurden einer speziellen Kategorie mit der Bezeichnung 'Unbekannt' zugeordnet. Die Methode speichert alle verfügbaren Stichproben, und das Modell kann frei bestimmen, ob die Fehlensfähigkeit selbst prädiktiv ist. Die One-Hot-Codierung wurde dann auf kategorische Variablen angewendet, um sie mit Machine-Learning-Modellen kompatibel zu machen. Alle Vorverarbeitungen, wie Imputation, Codierung usw., wurden nur auf dem Trainingssatz durchgeführt, und dieselben Transformationen wurden für die Validierungs- und Experimentsätze durchgeführt, um Datenverlust zu vermeiden. Es wurden keine Stichproben ausgeschlossen, nur wegen fehlender klinischer Metadaten, was sicherstellte, dass die Daten maximal genutzt und methodische Konsistenz herrschte.

Abbildung 1: Multimodales System zur Klassifikation von Hautläsionen. Der Studienansatz kombiniert dermoskopische Bildmerkmale mit Patientenmetadaten, um Hautläsionen mithilfe von Ensemble-Deep-Learning-Modellen zu klassifizieren. Das Framework umfasst Vorverarbeitung, Feature-Extraktion, multimodale Fusion und Klassifikation, was eine verbesserte diagnostische Leistung und Interpretierbarkeit ermöglicht. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
Der Workflow zeigt die vorgeschlagene Klassifikationspipeline, basierend auf dermoskopischen Bildern und klinischen Metadaten des Datensatzes für HAM10000 Hautläsionen. EfficientNet-B4, DenseNet201 und MobileNetV2 werden verwendet, um tiefe Features in Bildern vorzuverarbeiten und zu extrahieren. Die klinischen Metadaten werden codiert, und die Feature-Fusion wird verwendet, um die Bildmerkmale mit den klinischen Metadaten zu kombinieren. Um das Problem des Klassenungleichgewichts anzugehen, wird die Klassenbalancing-Technik im fusionierten multimodalen Merkmalsraum anstelle der Rohbilder oder einzelnen Merkmalsströme verwendet, wobei synthetische Proben die Kombination aus visuellen und klinischen Merkmalen beibehalten und keine unrealistischen Proben erzeugen. Die zusammengeführten Features werden dann auf Klassifikatoren wie XGBoost, LightGBM und einem tiefen neuronalen Klassifikator trainiert.

Abbildung 2: Beispiel-dermoskopische Bilder aus sieben verschiedenen Diagnosegruppen aus dem HAM10000-Datensatz. Bilder zeigen typische visuelle Merkmale, die für die automatisierte Klassifikation verwendet werden. (A) Aktinische Keratosen (akiec), die raue Oberflächen mit unregelmäßiger Pigmentierung zeigen. (B) Basalzellkarzinom (bcc) mit unregelmäßigen Formen und Blutgefäßen. (C) Gutartige, keratoseähnliche Läsionen (bkl), die keratotische Merkmale mit hellbraunen Oberflächen aufweisen. (D) Dermatofibrom (df), mit zentraler, narbenartiger Erscheinung und Pigmentierung. (E) Melanocytäre Nevi (nv), gutartige und relativ symmetrische Mole. (F) Vaskuläre Läsionen (vasc), die aufgrund von Blutgefäßen rötlich-violett erscheinen. (G) Melanom (mel), das sich als unregelmäßig geformte, asymmetrische und multipigmentierte Läsion äußert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
Diese dermoskopischen Bilder zeigen die visuelle Heterogenität von Hautläsionen, die Unterschiede in Pigmentierung, Textur und Morphologie der Struktur aufweisen. Diese Unterschiede stellen automatisierte Klassifikationssysteme eine große Herausforderung dar und betonen die Bedeutung von Deep-Learning-basierten Systemen. Merkmalsextraktionstechniken, die empfindlich darauf reagieren, subtile diagnostische Muster aufzudecken. Nach der Beschreibung des Datensatzes zeigt Abbildung 2 die sieben Kategorien von Hautläsionen, die im HAM10000-Datensatz enthalten sind und häufig in der dermatologischen diagnostischen Bildgebungsforschung untersucht werden. Zu diesen Klassen gehören aktinische Keratosen (akiec), Basalzellkarzinom (bcc), gutartige Keratose (bkl), Dermatofibrom (df), melanocytäre Nevi (nv), vaskuläre Läsionen (vasc) und Melanom (mel)21. Alle diese Arten von Läsionen weisen einzigartige visuelle Merkmale auf, wie in Abbildung 3 dargestellt, zu denen Variationen in Pigmentmustern, Oberflächentextur, Farbverteilung und Auffälligkeiten entlang der Läsionsränder gehören. Die visuellen Eigenschaften all dieser Läsionen unterscheiden sich und zeichnen sich durch Variationen in Pigmentmustern, Oberflächentextur, Farbverteilung und Auffälligkeiten an den Rändern der Läsionen aus. Dies sind wichtige Eigenschaften, die Dermatologen bei der Durchführung der klinischen Untersuchung berücksichtigen und daher gut von maschinellen Lernmodellen modelliert werden müssen, um die richtige Klassifikation zu erreichen. Obwohl dies die unterscheidenden Merkmale sind, erscheinen viele dieser Läsionen nahezu identisch, was es erschwert, sie bei rein dermoskopischen Bildern zu unterscheiden. Die Unterscheidung zwischen bestimmten Arten von Läsionen ist typischerweise äußerst subtil, aber klinisch relevant, was eine automatische Klassifikation erschwert. Deshalb ist es dringend, leistungsstarke KI-Modelle zu entwickeln, die in der Lage sind, feingranulare visuelle Bilder und subtile Unterschiede in Läsionen zwischen Läsionsklassen zu lernen. Diese Eigenschaften werden nicht nur durch die passende Beschreibung verbessert, was zu einer Verbesserung der Unterscheidungsfähigkeiten des Modells mit verschiedenen Läsionen führt, sondern auch dazu beiträgt, einige gefährliche Erkrankungen wie Melanome früher zu diagnostizieren. Schließlich kann es die diagnostische Genauigkeit verbessern, Kliniker bei Entscheidungen informieren, die zu besseren Patientenergebnissen führen, und helfen, bessere Entscheidungen zu treffen.

Abbildung 3: Klassenspezifische Verteilung der Hautläsionen im HAM10000-Datensatz. Die Abbildung zeigt die Verteilung der sieben in dieser Studie betrachteten Läsionskategorien: Aktinische Keratosen (akiec), Basalzellkarzinom (bcc), Benigne keratoseähnliche Läsionen (bkl), Dermatofibrom (df), melanocytäre Nevi (nv), vaskuläre Läsionen (vasc) und Melanom (mel). Dieses Diagramm veranschaulicht das Klassenungleichgewicht der Läsionsklassen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
Die Analyse des Datensatzes zeigt, dass es ein Ungleichgewicht in den Klassen der verschiedenen Läsionentypen gibt. Der häufigste Typ der melanocytären Nevi (nv) mit etwa 6.705 Proben ist der häufigste Typ, gefolgt von Melanom (1.113) und gutartiger Keratose (1.099). Im Gegenteil, es gibt einige Formen von klinisch relevanter Läsionen, die deutlich weniger vertreten sind, wie Dermatofibrom (115) und vaskuläre Läsionen (142). Dieses Unverhältnis stellt eine Bedrohung für Machine-Learning-Modelle dar, da sie dazu neigen könnten, zugunsten der Mehrheitsklassen verzerrt zu sein und nicht in der Lage sind, ungewöhnliche, aber klinisch signifikante Läsionen zu erkennen. Um dieses Problem zu bewältigen und das Training des Modells auf den Modellleistungen in Bezug auf alle Klassen zu verbessern, ist eine fortgeschrittene Vorverarbeitung erforderlich. Strategien sind nötig. Dazu gehören Techniken wie gezielte Datenaugmentation und Klassenbalancing. Die Daten können mit der Technik (Klassenausgleichstechnik) und Klassengewichtsanpassung ausgeglichen werden, die das Modell dazu ermutigt, wesentliche Trends in den unterrepräsentierten Klassen zu erkennen. Die für XGBoost und LightGBM verwendeten Hyperparameter wurden hauptsächlich auf ihre Standardkonfigurationen gesetzt, mit geringfügigen Anpassungen basierend auf vorläufigen Experimenten. Für den tiefen neuronalen Klassifikator wurden architektonische und Trainingsparameter wie die Anzahl der Schichten, Neuronen, Lernrate, Batchgröße und Anzahl der Epochen empirisch mittels Validierungsdaten ausgewählt. Der vollständige Satz der Hyperparameter ist in Tabelle 3 dargestellt. Im Allgemeinen beträgt die Anzahl der in der vorliegenden Studie verwendeten dermoskopischen Bilder insgesamt 10.015. Dies hat den Vorteil, eine umfangreiche Datensammlung zum Trainieren und Testen bereitzustellen, und es ist auch ein mühsamer, aber lohnender Maßstab. Bewerten Sie die Wirksamkeit des vorgeschlagenen Klassifikationssystems für Hautläsionen.
Datenvorverarbeitung
Die Preprocessing-Pipeline bereitet den HAM10000 Datensatz für multimodales Lernen vor, indem sie Bilder standardisiert, tiefe Features extrahiert, klinische Metadaten integriert und Klassenungleichgewichte behebt.
Bildstandardisierung: Alle dermoskopischen Bilder wurden auf 224 × 224 Pixel verkleinert und mittels Z-Score-Normalisierung normalisiert.
(1)
Wo ich das Rohbild darstelle, bezeichnet μ den pixelweisen Mittelwert, und σ ist die Standardabweichung.
Deep Feature Extraction: Komplementäre Deep Features wurden mit drei vortrainierten konfaltionellen neuronalen Netzwerken extrahiert: Efficient-Net B4, DenseNet201 sowie MobileNetV2. Jedes Netzwerk ordnet das normalisierte Bild einem Merkmalsvektor zu.
(2)
Die extrahierten Merkmale wurden zu einer einheitlichen Darstellung angeordnet:
FFusion=FEffB4 ||FDense ||FMobV2 (3)
(wobei || Verkettung bedeutet)
Integration klinischer Metadaten: Klinische Merkmale wie Alter, Geschlecht sowie Läsionlokalisierung wurden bereinigt, gekennzeichnet und mittels Min-Max-Skalierung normalisiert:
(4)
Der verarbeitete Metadatenvektor Mklinisch wurde mit Bildmerkmalen verschmolzen, um die endgültige multimodale Eingabe zu konstruieren:
Fkombiniert=FFusionMklinisch (5)
Datensatzaufteilung: Eine geschichtete Aufteilung wurde angewandt, um die Klassenverteilung zu erhalten
D-Zug,D-Test=Split(Fkomibelt,0,8) (6)
Umgang mit Klassenungleichgewichten: Der HAM10000-Datensatz weist ein starkes Ungleichgewicht der Klassen auf, wobei "Nevus"-Stichproben (NV) in anderen Minderheitengruppen, wie DF mit VASC, als unterrepräsentiert gelten. Um dieses Problem zu verringern, wurde die "Synthetic Minority Oversampling Technique" (Klassenausgleichstechnik) eingesetzt. Unter Verwendung neuer synthetischer Proben wurden hergestellt wie folgt:
xneu=xi + λ(xzi - xi) (7)

Dabei ist xi eine Minderheitenklassestichprobe, xzi einer seiner nächsten Nachbarn und λ ein Zufallswert, der aus einer gleichmäßigen Verteilung zwischen 0 und 1 gezogen wird. Die synthetische Probe, wie in Abbildung 4 dargestellt, wird entlang des Liniensegments erzeugt, das x Teil-i verbindet.und Xent verbindet xi und xzi.

Abbildung 4: Klassenverteilung im HAM10000-Datensatz vor/nach Anwendung der Klassenbalancing-Technik. (A) Vor der Klassenbalancierung, mit Ungleichgewicht zwischen den Läsionsklassen. (B) Nach der Klassenausgleichung im kombinierten Merkmalsraum, bei dem die Darstellung aller Klassen gleich ist, um Verzerrungen im Klassifikatortrainingsprozess zu vermeiden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
Um das Problem des Klassenungleichgewichts im HAM10000-Datensatz anzugehen, wird die Synthetic Minority Over-Sampling Technique (Klassenausgleichstechnik) angewendet. Die Klassenbalancing-Technik erzeugt synthetische Stichproben für die Minderheitenklassen, indem sie zwischen bestehenden Datenpunkten interpoliert, was dazu beiträgt, die Repräsentation unterrepräsentierter Läsionskategorien zu erhöhen. Das Endergebnis der Produktion weiterer Beispiele dieser Minderheitenklassen ist ein ausgewogenerer Datensatz insgesamt in Bezug auf alle sieben Läsionstypen. Diese ausgewogene Darstellung ermöglicht es den Klassifikationsmodellen, mit jeder Klasse besser zu lernen und die Verzerrung bei den Mehrheitsklassen zu minimieren. Daher ist das Modell in der Klassifikation gerechter und empfindlicher, insbesondere gegenüber seltenen, aber klinisch wichtigen Hautläsionen.
Datenschutzschützendes Lernframework
Das vorgeschlagene System schlägt ein multimodales System zur automatisierten Klassifikation von Läsionen auf der Haut vor, das datenschutzbewusst und interpretierbar ist. Das ultimative Ziel des Systems ist es, die diagnostische Leistung zu verbessern und gleichzeitig sensible Patienteninformationen während des gesamten Schulungsprozesses zu schützen. Patientenschutz ist ein wesentliches Bedürfnis in der medizinischen Praxis, da Datenschutzgesetze und ethische Überlegungen im Gesundheitswesen von großer Bedeutung sind. Daher wird das vorgeschlagene Modell ein dezentrales Lernmodell enthalten, das auf den Ideen des föderierten Lernens basiert. In dieser dezentralen Umgebung wird das Modelltraining auf einer Gruppe verteilter Kunden durchgeführt, anstatt alle Patientendaten an einem zentralen Ort zu aggregieren. Alle teilnehmenden Kunden trainieren das Modell lokal auf ihren eigenen Daten, und die Rohdaten der Patienten verlassen die lokale Umgebung nicht. Als Alternative zur Übertragung sensibler medizinischer Unterlagen werden Modellupdates oder Parameter an einen zentralen Server gesendet, um aggregiert zu werden. Dieser kooperative Lernansatz ermöglicht es den verschiedenen Institutionen oder Datenquellen, zur Modellausbildung beizutragen, ohne den Datenschutz zu kompromittieren.
Sei wt(k) die Modellparameter des k-ten Clients bei der t-ten Iteration und nk die Stichprobengröße an diesem Client. Die Aktualisierung des globalen Modells wird berechnet wie folgt:
(8)
Diese Aggregationsstrategie stellt sicher, dass Kunden mit größeren Datensätzen proportional mehr zum globalen Modell beitragen, während kleinere Kunden dennoch am Lernprozess teilnehmen können. Durch die Möglichkeit eines kollaborativen Trainings ohne den Austausch von Rohdaten von Patienten wahrt das vorgeschlagene Framework die Privatsphäre und profitiert dennoch von verteiltem Wissen über Datensätze hinweg.
Föderierte experimentelle Einrichtung
Ein simuliertes föderiertes Lernsystem mit dem HAM10000-Datensatz wurde entwickelt, um die Effizienz des angebotenen, datenschutzbewussten Frameworks zu bestätigen. Die Daten wurden in drei Clients aufgeteilt, um eine reale multiinstitutionelle Umgebung mit nicht identisch verteilten (nicht-IID) Daten zu simulieren. Jeder Klient hat eine unterschiedliche Mischung an Läsionenklassen, und das stellt eine weltweite Unterschiedsgruppe zwischen klinischen Zentren dar. Die identische multimodale Feature-Extraction-Pipeline (EfficientNet-B4, DenseNet201, MobileNet V2 und klinische Metadaten) wurde bei jedem Client lokal durchgeführt. In ihrer Schulung aktualisierten die Clients ihre lokalen Modelle eigenständig, und die erlernten Parameter wurden nur mit dem zentralen Server ausgetauscht, um vom FedAvg-Algorithmus aggregiert zu werden. Der Kompromiss zwischen prädiktiver Genauigkeit und Privatsphäre wurde zwischen dem föderierten Modell und dem zentralisierten Trainingsansatz zur Messung der Leistung jedes Modells verglichen. Die in Abbildung 5 dargestellten Testergebnisse zeigen, dass das föderierte Modell wettbewerbsfähig ist, mit nur einer leichten Abnahme der Genauigkeit im Vergleich zum zentralisierten Lernen und deutlich verbessertem Datenschutz.

Abbildung 5: Client-weise Verteilung des HAM10000-Datensatzes. Dies zeigt die Zuteilung von Hautläsionsdaten unter den Patienten und zeigt die Vielfalt in der Datenverteilung. Dies zeigt die Heterogenität der Daten unter den Klienten, ein entscheidender Aspekt des föderierten Lernens. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
Heterogene (nicht-IID) Verteilungen von Klienten, die in HAM10000 entstanden, wurden in drei Gruppen unterteilt, um reale klinische Erkrankungen zu modellieren. Die Verteilung der verschiedenen Kategorien von Läsionen innerhalb jedes Klients ist unterschiedlich, insbesondere die Klasse der Nevus (nv), die nicht gleichmäßig über die Klienten verteilt ist. Diese Anordnung ist ein Hinweis auf die realen Schwierigkeiten des föderierten Lernens, bei dem die Daten in Institutionen nicht gleichmäßig verteilt sind.
Leistungsvergleich: zentralisiertes vs. föderiertes Lernen
Um die Wirksamkeit des vorgeschlagenen föderierten Lernrahmens zu bewerten, wurde eine vergleichende Analyse zwischen zentralisierten und föderierten Trainingsstrategien unter Verwendung des HAM10000-Datensatzes durchgeführt, wie in Abbildung 6 dargestellt. Im zentralisierten Rahmen wurden alle Datenproben in einem einzigen Trainingspool zusammengefasst. Das am besten abschneidende zentralisierte Modell, das gestapelte Ensemble, erreichte eine Gesamtgenauigkeit von 96 %. Im Gegensatz dazu verteilte das föderierte Setting den Datensatz auf drei Clients mit nicht identisch verteilten (nicht-IID) Daten, wobei jeder Client das Modell lokal trainierte und nur Modellparameter mit FedAvg teilte. Das föderierte Modell erreichte eine Gesamtgenauigkeit von etwa 94 %, was einem Leistungsunterschied von 2 % im Vergleich zum zentralisierten Ansatz entspricht, wie in Tabelle 4 gezeigt. Dieser marginale Rückgang wird aufgrund dezentraler Optimierung und heterogener Datenverteilung über die Kunden hinweg erwartet.
Obwohl diese kleine Änderung stattfand, schnitt das föderierte Modell weiterhin gut bei der Vorhersage ab. Im zentralisierten Training zeigt das klassenspezifische Verhalten, dass die Mehrheit der Klassen, wie Nevus (nv) (F1-Score = 1,00), stabil bleibt, während Minderheitenklassen wie Dermatofibrom (df) (F1-Wert ≈ 0,65–0,66) empfindlicher gegenüber Verteilungsungleichgewichten sind, was die föderierte Leistung noch stärker beeinflussen könnte. Bemerkenswert ist, dass die föderierte Struktur die Wahrscheinlichkeit minimiert, sensible Patientendaten offenzulegen, da sie nicht den Austausch von medizinischen Rohdaten zwischen den Klienten erfordert.

Abbildung 6: Vergleich föderiertes Lernen vs. zentralisiertes Lernen. Diese Abbildung vergleicht Lernparadigmen anhand von Leistungskennzahlen wie Genauigkeit, Präzision, Abruf und F1-Score. Dies demonstriert die Fähigkeit föderiertes Lernens, eine Leistung zu erzielen, die mit dem traditionellen Lernansatz vergleichbar ist, während gleichzeitig die Privatsphäre gewahrt wird. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
Die Ergebnisse aus Tabelle 4 zeigen, dass das föderierte Lernmodell wettbewerbsfähig sein kann, und der Rückgang der Genauigkeit beträgt im Vergleich zum zentralisierten Modell nur geringfügig etwa 2 %. Diese leichte Reduktion lässt sich durch die dezentrale Optimierung und die Nicht-IID-Datenverteilung erklären. Das föderierte Modell hat jedoch einen enormen Vorteil im Hinblick auf Datenschutz, da die sensiblen Patientendaten nicht unter den Kunden geteilt werden. Um einen fairen Vergleich des föderierten Modells und des zentralisierten gestapelten Ensemble-Modells zu ermöglichen, wurde das föderierte Modell mit derselben Architektur und den gleichen Hyperparametern getestet. Der in dieser Studie diskutierte Datenschutzaspekt ist konzeptionell und soll die potenzielle Integration von Techniken wie federiertem Lernen in zukünftige Arbeiten hervorheben. In der aktuellen Implementierung wird keine experimentelle Validierung datenschutzfähiger Mechanismen durchgeführt.
Multimodale Merkmalsfusion
Die Diagnose von Hautläsionen umfasst in der Regel die Hautbeobachtung und die klinische Vorgeschichte. Dermatologen berücksichtigen in den meisten Fällen nicht nur dermoskopische Bilder, indem sie sie in Bezug auf Patienteninformationen (Alter, Geschlecht und Ort der Läsion) platzieren, um ihre diagnostischen Einschätzungen zu treffen. Das vorgeschlagene System basiert auf der Inspiration dieses klinischen Arbeitsablaufs und integriert einen multimodalen Ansatz zum Lernen, um bildbasierte und klinische Daten zu kombinieren. CNNs werden auf bereits vorhandenen dermoskopischen Bildtiefenmerkmalen trainiert. Solche Netzwerke erkennen komplexe visuelle Designs, darunter Farbveränderungen, Läsionsformen, strukturelle Anomalien und Texturmerkmale. Dennoch reichen die Merkmale der Bilder möglicherweise nicht aus, um den klinischen Zustand einer Läsion zu erfassen. Klinische Metadaten zu jedem Bild werden somit ebenfalls in das Lernen einbezogen. Ein Feature-Fusion-Modul wird erstellt, das Deep-Image-Features mit verarbeiteten klinischen Attributen und demografischen Informationen integriert. Diese zusammengesetzte Darstellung bildet eine integrierte multimodale Merkmalsrepräsentation, die sowohl visuelle als auch kontextuelle Informationen jeder Läsion umfasst. Das Modell kann mehrere Datenquellen integrieren, um komplementäre Muster zu erhalten, die die Gesamtklassifikationsfähigkeit verbessern. Die multimodale Repräsentation ermöglicht es dem System, zwischen visuell ähnlichen Läsionen effektiver zu unterscheiden und die klinischen Indikatoren einzubeziehen. Das Modell ist klinisch sinnvoller und effektiver, da es eine nähere Annäherung daran bietet, wie Dermatologen Läsionen in der klinischen Praxis untersuchen.
Gestapeltes Ensemble-Lernen
Das vorgeschlagene Framework verwendet eine gestapelte Ensemble-Lernstrategie, um die Prädiktionsfähigkeit des Systems weiter zu verbessern. Ensemble-Lernen ist eine zusammengesetzte Vorhersagemethode, die zwei oder mehr prädiktive Modelle verwendet, um die Verallgemeinerung zu verbessern und die Vorhersagefehler, die bei einzelnen Modellen auftreten können, zu minimieren. Mehrfach-Basis-Lernende werden unabhängig in der multimodalen Merkmalsrepräsentation trainiert, anstatt einen einzelnen Klassifikator zu verwenden. Alle Basislernenden geben eine Schätzung an, wie wahrscheinlich es ist, dass eine bestimmte Stichprobe zu einer bestimmten Läsionsklasse gehört. Diese Wahrscheinlichkeitsvorhersagen werden dann auf Meta-Ebene aggregiert. Jedem Basislernenden wird ein Gewicht zugewiesen, um seine relative Bedeutung für die Endprognose zu zeigen. Eine Softmax-Aktivierungsfunktion wird verwendet, um die aggregierten Ausgaben zu berechnen und so normalisierte Klassenwahrscheinlichkeiten zu erzeugen. Die Stacked-Ensemble-Methode hat eine Reihe von Vorteilen. Erstens minimiert sie die Vorhersagevarianz durch die Kombination verschiedener Modelle und verbessert somit die Leistung der Verallgemeinerung. Zweitens erhöht es die Stärke, da verschiedene Modelle unterschiedliche Trends in den Daten beschreiben. Drittens verbessert Ensemble-Lernen die Klassifikation von Minderheitenläsionsklassen, insbesondere in medizinischen Daten, wo bestimmte klinische Erkrankungen von Interesse nicht so häufig vorkommen.
Erklärbare Integration von künstlicher Intelligenz
Medizinische KI-Systeme sollten auch klare Erklärungen zu ihren Entscheidungen liefern, auch wenn eine hohe Vorhersagegenauigkeit entscheidend ist. Um KI-Systemen zu vertrauen und in ihrer Praxis effektiv zu sein, sollten Kliniker nachvollziehen können, wie ein Modell zu der von ihm erzeugten Diagnose passt. Um diesem Bedarf gerecht zu werden, integriert der vorgeschlagene Rahmen erklärbare Methoden der künstlichen Intelligenz (XAI), wie in Abbildung 7 dargestellt.

Abbildung 7: Verwirrungsmatrizen verschiedener Klassifikationsmodelle für die Klassifikation mehrerer Hautläsionen. (A) XGBoost, (B) LightGBM, (C) Deep Neural Classifier und (D) Stacked Ensemble Model. Jede Verwirrungsmatrix zeigt die Beziehung zwischen der wahren Klasse (Reihen) und der vorhergesagten Klasse (Spalten) für alle sieben Hautläsionen: akiec, bcc, bkl, df, mel, nv und vasc. Die XGBoost- und LightGBM-Modelle schneiden für die NV- und BKL-Klassen gut ab, obwohl es einige Verwirrungen zwischen Mel und NV gibt. Der Deep Neural Classifier verbessert die Klassifikation von bkl und df und verringert die Verwirrung außerhalb der Diagonalen. Das Stacked Ensemble-Modell zeigt die größte Klassifikationskonsistenz, wobei die Diagonale zunehmend dominant wird. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
Das System umfasst zwei beliebte Erklärungsansätze (Modellinterpretierbarkeitstechnik (SHapley Additive Explanations) und Modellinterpretierbarkeitstechnik (Local Interpretable Model-agnostic Explanations)), um Einblicke in die Vorhersagen des Modells zu geben. Die Modellinterpretierbarkeitsmethode erklärt Merkmale auf Ebene der Merkmale, indem sie misst, inwieweit jedes Eingabemerkmal zur Gesamtprognose beigetragen hat. Es hilft dabei zu bestimmen, welche klinischen Variablen bzw. visuellen Qualitäten den größten Einfluss auf das Ergebnis der Klassifikation haben. Dies ermöglicht es Forschern und Klinikern, das Gesamtverhalten des Modells im gesamten Datensatz zu erkennen. Die Modellinterpretierbarkeitstechnik hingegen befasst sich mit lokalen Erklärungen individueller Vorhersagen. Es betont die Bereiche des dermoskopischen Bildes, die den größten Einfluss auf die Entscheidung des Modells haben. Diese visuellen Erklärungen auf Pixelebene ermöglichen es Klinikern, die Bereiche der Läsion, die die Klassifikation beeinflusst haben, visuell zu inspizieren. Der vorgeschlagene Rahmen bietet globale und lokale Interpretierbarkeit; Dies wird durch Integration der Modellinterpretierbarkeitstechnik erreicht. Der Dual-Erklärungsmechanismus erhöht die Transparenz und ermöglicht es Klinikern zu beurteilen, ob das Modell medizinisch signifikante Muster anspricht.
Potenzial für klinische Entscheidungsunterstützung
Datenschutzsicherndes Lernen, multimodale Merkmalsfusion, Ensemble-Modellierung und erklärbare KI sind Schlüsselkomponenten eines integrierten und robusten Systems zur automatischen Klassifikation von Hautläsionen. Idealerweise sollte das System nicht nur eine hohe prognostische Leistungsfähigkeit besitzen, sondern auch transparent und sicher sein, was zwei Schlüsselfaktoren in medizinischen Systemen sind, wie in Abbildung 8 gezeigt.

Abbildung 8: Receiver operating characteristic (ROC)-Kurven für das gestapelte Ensemble-Modell. (A–C) Dies zeigt die ROC-Kurven für die sieben Hautläsionstypen, mit echter positiver Rate (Sensitivität) und falsch-positiver Rate (1-Spezifität). Die Fläche unter der Kurve (AUC) stellt die Leistung des gestapelten Ensemblemodells bei der Unterscheidung zwischen den Klassen dar. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
Dieses System bietet erklärbare Vorhersagen und Datenschutz. Daher ist es ein nützliches System für andere dermatologische Diagnostiksysteme. Dieses System ermöglicht es Gesundheitsfachkräften/Dermatologen, den Verdacht auf Läsionen zu beurteilen, die Diagnosegenauigkeit zu verbessern und dadurch Praktikern und Dermatologen zu helfen, Patienten frühzeitig zu diagnostizieren, wenn sie eine schwerwiegendere Erkrankung (z. B. Melanom) haben. Im Wesentlichen zielt dieses System, wie in Abbildung 9 gezeigt, darauf ab, die Technologien der Nutzung von Hightech-KI-Systemen (KI) und der Implementierung realer Anwendungen in die Praxis umzusetzen, um Dermatologen zu helfen, Patienten genauer und mit mehr Vertrauen zu diagnostizieren und gleichzeitig die Privatsphäre und Sicherheit der Patienten sowie deren Komfort zu gewährleisten.

Abbildung 9: Erklärbarkeitsergebnisse mit Modellinterpretierbarkeitstechniken zur Klassifikation von Hautläsionen in mehreren Klassen. (A) SHAP-Diagramm, das Merkmalebeiträge zeigt, die gutartige und bösartige Läsionen beeinflussen. (B) LIME-Erklärung für die BCC-Vorhersage, die die Merkmale veranschaulicht, die positiv und negativ zum Klassifikationsergebnis beitragen. (C) LIME-Erklärung für die akiec-Vorhersage, die die einflussreichsten Merkmale des Modellentscheidungsprozesses hervorhebt. Diese interpretierbaren Visualisierungen zeigen die Regionen und extrahierten Merkmale, die die Vorhersagen des Modells maßgeblich beeinflussen, und verbessern so die Transparenz und das Verständnis des Klassifikationsprozesses bei der Hautläsionsbewertung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
Bewertungsstrategie
Um Stichprobenverzerrungen zu vermeiden und die ursprüngliche Klassenverteilung über alle Hautläsionskategorien zu erhalten, wurde der Datensatz in eine 80:20-Zug-Test-Aufteilung aufgeteilt. Die Trainingsteilmenge wurde dann im Verhältnis 90:10 train: validate, um die Hyperparameter abzustimmen und das Modell zu optimieren. Der Testsatz wurde in keiner Phase im Trainingsprozess verwendet und nur am Ende des Trainings als Abschlusstest angewendet, um Datenverluste zu vermeiden und eine unvoreingenommene Leistungsbewertung sicherzustellen. Alle Modelle wurden in gleichen Umgebungen vorbearbeitet und trainiert, die Daten wurden auf die gleiche Weise aufgeteilt und erweitert, und Evaluierungsprotokolle wurden auf dieselbe Weise angewendet und befolgt, was faire und reproduzierbare Vergleiche ermöglichte. Die Modelle wurden gründlich anhand von Genauigkeit, Präzision, Rückruf, F1-Wert und AUC bewertet, mit einer detaillierten Analyse der klassenspezifischen Ergebnisse, um ihre Robustheit sowohl für Haupt- als auch für Minderheitenklassen von Läsionen zu bestimmen. Dieses standardisierte Validierungsinstrument würde dazu beitragen, die Zuverlässigkeit, Transparenz und Generalisierbarkeit des vorgeschlagenen Ansatzes zu erhöhen und potenzielle Inkonsistenzen in der Leistungsberichterstattung zu überwinden.