Ein erklärbares, datenschutzerhaltendes multimodales Ensemble-Framework für die Klassifikation von Hautläsionen

Amrita Koul; N. P. Singh

doi:10.3791/71472

Research Article

Ein erklärbares, datenschutzerhaltendes multimodales Ensemble-Framework für die Klassifikation von Hautläsionen

DOI:

10.3791/71472

⸱

June 12th, 2026

Amrita Koul¹ , N. P. Singh¹

¹Department of Computer Science and Engineering, School of Engineering and Technology, MVN University, Palwal

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die vorgeschlagene Arbeit zielt darauf ab, eine erklärbare, privatsphäre schützende multimodale Ensemble-Struktur für eine genaue Klassifikation von Hautläsionen zu entwickeln und zu evaluieren, indem Deep-Learning-Funktionen, klinische Metadaten und erklärbare KI-Techniken integriert werden, um die diagnostische Genauigkeit, Transparenz und zuverlässige klinische Entscheidungsunterstützung für die frühzeitige Hautkrebserkennung zu verbessern.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Unter den dermatologischen Erkrankungen gehört Hautkrebs zu den lebensbedrohlichsten. Eine frühzeitige und genaue Diagnose ist wichtig, um die Prognose eines Patienten zu verbessern. Dennoch stehen traditionelle KI-basierte Diagnosemethoden vor mehreren Herausforderungen, darunter Datenschutzbedenken, eingeschränkte Interpretierbarkeit und ein schwerwiegendes Klassenungleichgewicht in mehrklassigen Hautläsionsdatensätzen. Um diese Herausforderungen zu meistern, schlägt das vorgeschlagene Papier ein datenschutzbewusstes, erklärbares multimodales Klassifikationsmodell für Hautläsionen vor, das komplexe Deep-Learning-Modelle und einen Ensemble-Modellierungsansatz mit erklärbaren Methoden der künstlichen Intelligenz kombiniert. Die experimentelle Bewertung erfolgt unter Verwendung öffentlich zugänglicher HAM10000 Benchmark-Daten zur Klassifikation von Hautläsionen in mehreren Klassen, die über Kaggle Hub zugänglich sind und sich auf sieben klinisch signifikante Läsionsklassen (akiec, bcc, bkl, df, mel, nv, vasc) aufteilen. Um die Daten auszubalancieren, wird eine Klassenbalancing-Technik eingesetzt, um die Minderheitenklassen zu stärken. EfficientNet B4, DenseNet201 und MobileNetv2 werden verwendet, um tiefgehende Feature-Darstellungen zu extrahieren, die anschließend mit wichtigen klinischen Metadaten kombiniert werden, um einen robusten multimodalen Feature-Raum zu schaffen. Diese multimodalen Funktionen werden verwendet, um XGBoost, LightGBM, Deep Neural Classifier (DNC) zu trainieren, die zu Klassifikationsgenauigkeiten von 92 %, 90 % bzw. 94 % führten. Eine gestapelte Ensemble-Strategie wird angewandt, um die Ausgaben von XGBoost, LightGBM und Deep Neural Classifier (DNC) zu kombinieren, was zu einer Verbesserung der Genauigkeit um 96 % führt. Modellinterpretierbarkeitstechniken bieten Erklärungen auf Merkmalsebene, die die Transparenz erhöhen. Die experimentellen Ergebnisse bewiesen die Praktikabilität des vorgeschlagenen Rahmens hinsichtlich der Effizienz bei der klinisch relevanten realen Klassifikation von Hautläsionen.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Hautkrebs stellt eine bedeutende globale Gesundheitsbelastung dar, mit weltweit gemeldeten steigenden Inzidenzraten¹. Künstliche Strahlung gilt als ein wesentlicher beitragender Faktor für Hautkrebs und führt zu genetischen Mutationen, die zu unkontrollierter Zellproliferation und Tumorentwicklung in Hautzellen^führen ^1,2_.Hautkrebs umfasst eine Gruppe von Krankheiten, darunter Melanom, Plattenepithelkarzinom und Basalzellkarzinom (BCC). Die Ursachen, das klinische Auftreten und die prognostischen Faktoren dieser Erkrankungen unterscheiden sich alle³. Hauterkrankungen sind aufgrund von Pixel-Ähnlichkeiten zu einem Hindernis in der medizinischen Diagnostik geworden. Im Jahr 2022 gab es weltweit schätzungsweise 331.722 Melanomfälle (58.667 Todesfälle) und 1,2 Millionen NMSC-Fälle (69.416 Todesfälle). Die höchsten altersstandardisierten Inzidenzraten (ASR) für Melanom lagen in Ozeanien (29,78/100.000), Nordamerika (16,3) und Europa (10,43). Allerdings war das Mortalitäts-Inzidenz-Verhältnis in Afrika (0,35) und Asien (0,30) am höchsten im Vergleich zu Nordamerika und Ozeanien (0,02 in beiden), was auf eine schlechtere Prognose¹ hinweisen könnte. In der Dermatologie basierte die Diagnose und Überwachung von Hautläsionen hauptsächlich auf visueller Untersuchung und anderen nicht-invasiven Untersuchungen. Invasive Methoden werden nicht angewandt, da sie die Läsionen schädigen und die Durchführung einer klinischen Nachbeobachtung des Wachstums verhindern^können. Hautläsionen können verschiedene Typen sein: Melanom (MEL), Dermatofibrom (DF), aktinische Keratose und intraepitiheliales Karzinom (AKIEC), Basalzellkarzinom (BCC), gutartige Keratose (BKL), melanocytärer Nevus (NV) und vaskuläre Läsionen (VASC), wie im HAM10000 Dataset⁵ definiert. Große Herausforderungen bei der Klassifikation dermatoskopischer Bilder sind das Vorhandensein von Haaren, Tinten, Linealmarkierungen, farbigen Flecken, Schimmern, Tropfen, Ölblasen, Blutgefäßen, hyperpigmentierten Bereichen und/oder entzündlichen Läsionen⁶. Es gab bereits Studien zur Merkmalsauswahl und Deep Learning für medizinische Bildgebung und Hautläsionklassifikation ^7,8.

Computer-Vision-basierte Ansätze zur Hautkrebsdiagnose und die Integration von handgefertigten und tiefen Merkmalen wurden ebenfalls untersucht, ebenso^wie Merkmalsfusionsstrategien zur Verbesserung der Klassifikationsleistung¹⁰. Jüngste Fortschritte betonen zudem die Integration von maschinellem Lernen in Gesundheitssysteme und sichere medizinische Datenverarbeitungsrahmen^11,12_.Die Nutzung von KI-Gesundheitswesen, die von fortschrittlichen Computeralgorithmen angetrieben wird, hat das Potenzial, personalisierte und effiziente integrierte Versorgungsprogramme zu liefern, die insbesondere für Patienten in Fern- und häuslichen Pflegeumgebungen von Vorteil sind¹³. Durch die Nutzung umfangreicher Datensätze dermatoskopischer Bilder können Deep-Learning-Modelle – insbesondere konvolutionale neuronale Netzwerke (CNNs) – darauf trainiert werden, verschiedene Hautläsionen genau zu identifizieren und zu klassifizieren. Mehrere Techniken zeigen starke Ergebnisse bei der Hautläsionssegmentierung, darunter vollständig konvolutionelle Netzwerke (FCNs), CNNs, Deep CNNs (DCNNs), vollständig konvolutionelle Residualnetze (FCRNs) und U-Net-Architekturen. Tiefe neuronale Netze (DNNs) sind aufgrund ihrer hochkomplexen Architektur nicht leicht interpretierbar, weshalb ihr Entscheidungsprozess schwer zu verstehen ist^14,15. Jüngste Fortschritte in der medizinischen Bildanalyse haben gezeigt, dass tiefe konvolutionelle neuronale Netze (CNNs) die Effizienz bei der Klassifikation von Hautläsionen signifikant verbessern. Mehrere Studien zu dermoskopischen Datensätzen wie HAM10000 haben gezeigt, dass CNN-basierte Architekturen wie ResNet, DenseNet und EfficientNet durch das Lernen hierarchischer Merkmalsrepräsentationen aus Läsionsbildern eine starke Multi-Klassen-Klassifikation erzielen. Hybride Feature-Fusionsansätze, bei denen mehrere CNN-Backbones kombiniert werden, haben die diagnostische Genauigkeit durch die Integration komplementärer tiefer Repräsentationen^{weiter verbessert 16}. Darüber hinaus haben aktuelle Studien hybride CNN-Transformatormodelle in der medizinischen Bildanalyse untersucht. Modelle mit Vision Transformer und CNN-Merkmalsextraktoren haben nachweislich bessere Ergebnisse bei der Klassifikation von Hautläsionen, da sie besser in der Lage sind, lokale Texturinhalte sowie globale kontextuelle Beziehungen zu extrahieren¹⁷. Diese hybriden Designs gelten auch als Stand der Technik in der medizinischen Bildgebung, da sie eine ausgewogene Repräsentationsfähigkeit besitzen.

In anderen Bereichen der Medizin wurden Merkmalfusionsstrategien außerhalb der Dermatologie umfangreich eingesetzt. CNN-basierte Hybridsysteme wurden auch bei der Analyse histopathologischer Bilder eingesetzt, um eine bessere Klassifikation von Lungen- und Darmkrebs mit verbesserten Merkmalsrepräsentationen und räumlicher Lerndynamik zu^erreichen. Ebenso hat in der Ophthalmologie der Einsatz von Deep-Learning-Modellen, die auf verschmolzenen Merkmalsrepräsentationen trainiert sind, eine erfolgreiche Anwendung in der diabetischen Retinopathie-Staging von Fundusbildern gezeigt, mit besserer Robustheit und Klassifikationsgenauigkeit in einer mehrklassigen Bewertungsaufgabe¹⁸. Multimodale Fusionsmethoden in diesen Bereichen deuten alle darauf hin, dass heterogene Merkmalsrepräsentationen eine bessere Verallgemeinerung und Klassifikation liefern, insbesondere in unausgewogenen medizinischen Daten¹⁹.

Obwohl diese Verbesserungen vorgenommen wurden, sind die aktuellen Praktiken meist darauf beschränkt, multimodal zu sein, nicht integriert, unzureichend, um das Problem des Klassenungleichgewichts anzugehen, und wenig hilfreich in klinischen Entscheidungen. Um diese Probleme zu überwinden, präsentiert dieses Papier ein erklärbares Klassifikationsmodell für Hautläsionen, das datenschutzbewusst ist und beide Methoden der Modellinterpretierbarkeit integriert. Solche Erklärbarkeitsmethoden können verwendet werden, um die Vorhersagen des Modells zu erklären, aufzuzeigen, welche Merkmale am wichtigsten sind, und bedeutende Bereiche dermoskopischer Bilder hervorzuheben, wodurch die Klarheit und das Vertrauen in klinische Verfahren erhöht werden, wodurch die klinische Transparenz verbessert, Vertrauen geschaffen und die sichere Implementierung von KI-Systemen in der klinischen Praxis unterstützt wird. Es gibt ein erhebliches Ungleichgewicht im HAM10000-Datensatz, wobei einige Klassen deutlich weniger Stichproben aufweisen als andere. Um dieses Problem zu überwinden, wird die synthetische Minderheiten-Übersampling-Technik (auch bekannt als Klassenbalancing) verwendet, um synthetische Stichproben für unterrepräsentierte Klassen zu erzeugen. Klassenausgleichstechniken balancieren den Datensatz aus, sodass das Modell besser von Minderheitenläsionen lernen kann, die Sensitivität erhöht und eine zuverlässigere Vorhersage klinisch signifikanter, aber seltenerer Hautkrebsklassen ermöglicht. Tiefgehende Funktionen von EfficientNet-B4, DenseNet201 und MobileNetV2 werden mit den klinischen Metadaten kombiniert, um eine informativere Darstellung jeder Hautläsion zu bilden. Dieses doppelte Merkmal hilft uns, die visuellen Muster dermoskopischer Bilder und anderer Patienteninformationen für eine tiefere Analyse zu extrahieren. Die Merkmale werden anschließend auf verschiedenen Klassifikatoren trainiert, darunter XGBoost, LightGBM und ein Deep Neural Network, um die Leistungsfähigkeit und Wirksamkeit des Hautläsionsklassifikationsmodells zu verbessern. Das Ensemble der Modelle wird mit einer Stacking-Ensemble-Technik verwendet, um das Modell zu verstärken. Dies ist ein zusammengesetztes Modell, das die Stärken mehrerer Modelle nutzt, um von den Vorhersagen aller Modelle im Ensemble zu lernen und davon zu profitieren und gleichzeitig deren Einschränkungen abzumildern.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie nutzte öffentlich zugängliche, vollständig anonymisierte dermoskopische Datensätze und beinhaltete keine direkte menschliche Beteiligung; Daher war keine Genehmigung des ethischen Komitees erforderlich. Die Materialtabelle enthält Details zu allen in dieser Studie verwendeten Materialien oder Werkzeugen. Tabelle 1 enthält Details zur Hardware- und Softwareumgebung, wie Prozessortyp, Speicher, Betriebssystem und Software-Frameworks. Tabelle 2 enthält Details zur klassenspezifischen Präzision, Rückruf, F1-Wert und Unterstützung für jede Hautläsionskategorie.

Gesamtablauf des vorgeschlagenen multimodalen Klassifikationsrahmens für Hautläsionen

Der Grundplan dieser Forschung ist es, ein präzises und verständliches Schema der Mehrfachklassifikation von Hautläsionen zu erstellen. Der Workflow beginnt mit der Datenerhebung und Vorverarbeitung des HAM10000 Datensatzes und fährt dann mit der Feature-Extraktion mittels Deep-Learning-Architekturen und der Einbindung klinischer Metadaten über. Anschließend werden mehrere maschinelle Lernklassifikatoren trainiert und optimiert, und ihre Ergebnisse werden in einer Ensemble-Strategie aggregiert. Schließlich werden die Vorhersagen des Modells mithilfe von Erklärbarkeitstechniken interpretiert und die Wirksamkeit des Modells für den Einsatz in der praxisnahen klinischen Entscheidungsunterstützung bewertet.

Um die prädiktive Genauigkeit des vorgeschlagenen Systems zu verbessern, wird eine multimodale maschinelle Lernpipeline verwendet, die sowohl bildbasierte Funktionen als auch klinische Metadaten kombiniert (wie in Abbildung 1 dargestellt. Das Modell kann die visuellen Ergebnisse dermoskopischer Bilder mit den Informationen des Patienten zusammenfassen, um detailliertere Muster verschiedener Hautläsionen zu identifizieren. Mit einer solchen Kombination kann das System bessere Vorhersagen treffen, was letztlich zutrifft. Verbessern Sie die Qualität und Nützlichkeit der Hautläsionklassifikation. Drei vortrainierte konfaltionelle Deep-Merkmale werden mit Hilfe neuronaler Netze extrahiert (EfficientNet-B4, DenseNet201 und MobileNetV2): Sie sind in der Lage, eine Vielzahl komplementärer Muster dermoskopischer Bilder zu erfassen. Diese Architekturen lernen hochrangige Muster darin, wie Hautläsionen aussehen, wie Farb- und Texturwechsel sowie wie sie aufgebaut sind. Anschließend kombiniert ein Feature-Fusion-Modul die tiefgründigen Features mit klinischen Merkmalen und demografischen Daten, um ein reichhaltiges multimodales Feature zu schaffen. Die zusammengeführten Daten werden dann in Trainings-, Validierungs- und Testdaten aufgeteilt, um eine angemessene Modelltestung sicherzustellen. Als nächstes wird ein Feature-Fusion-Modul verwendet, um die tiefen Features mit den klinischen Features und demografischen Daten zu verbinden, um ein reichhaltiges multimodales Feature zu erzeugen. Diese Daten werden dann in Trainings-, Test- und Validierungsdaten aufgeteilt, um das Modell zu testen. Eine Ensemble-Strategie wird verwendet, um die Vorhersagegenauigkeit weiter zu verbessern. Dies geschieht, indem die Ergebnisse mehrerer Modelle gemittelt und die endgültige Vorhersage anhand dieser gemittelten Wahrscheinlichkeiten gemittelt werden, um die Verallgemeinerung zu verbessern und die Varianz zu minimieren, die sonst durch einzelne Modelle verursacht worden wäre. Darüber hinaus werden auch Erklärbarkeitsmethoden wie Modellinterpretierbarkeitstechniken integriert, um weiter zu erklären, wie das Modell seine Entscheidungen trifft. Die Methode der Modellinterpretierbarkeit bietet Interpretationen auf Merkmalsebene, indem der Beitrag von Eingabevariablen quantifiziert wird, während die Methode der Modellinterpretierbarkeit wichtige Bereiche innerhalb dermoskopischer Bilder auf Pixelebene identifiziert, die die Vorhersage beeinflussen. Modellinterpretierbarkeitstechniken bieten Erklärungen auf Merkmalsebene, indem sie den Beitrag jeder Eingabevariablen quantifizieren, während Modellinterpretierbarkeitstechniken wichtige Bereiche auf Pixelebene in dermoskopischen Bildern hervorheben, die die Vorhersage beeinflussen. Zusammen machen diese Techniken die Modelle interpretierbarer und helfen Klinikern, die Entscheidungsprozesse des Systems kennenzulernen. Daher bietet die vorgeschlagene Pipeline ein verständliches und datenschutzbewusstes System, das Transparenz und Vertrauen erhöht und eine zuverlässigere Hautkrebsdiagnose in einer realen Gesundheitseinrichtung ermöglicht.

Datensatzbeschreibung mit Vorbereitung

In diesem Artikel wird der Datensatz HAM10000 (Mensch gegen Maschine mit 10.000 Trainingsbildern) als primärer Datensatz für die Klassifikation mehrerer Hautläsionen verwendet. Der Datensatz enthält über 10.000 dermoskopische Figuren, die aus verschiedenen medizinischen Quellen gesammelt wurden. Klinische Quellen und Populationen, was es zu einem der am weitesten verbreiteten Benchmark-Datensätze in der dermatologischen Bildanalyse macht. Jedes Bild im Datensatz wird von wichtigen klinischen Metadaten begleitet, darunter Bildidentifikatoren, diagnostische Etiketten, Patientenalter, Geschlecht und anatomische Lage der Läsion. Der Datensatz umfasst sieben diagnostische Kategorien: aktinische Keratosen (AKICEC), Basalzellkarzinom (BCC), gutartige Keratose (BKL), Dermatofibrom (DF), melanocytäre Nevi (NV), vaskuläre Läsionen (VASC) und Melanom (Melanom).

Klinische Metadaten-Vorverarbeitung

Ergänzende Merkmale, die der Klassifikationspipeline hinzugefügt wurden, umfassten klinische Metadaten wie Alter, Geschlecht und die Lage der Läsion beim Patienten. Es fehlten oder unbekannte Werte, die durch einen deterministischen Vorverarbeitungsansatz behandelt wurden. Im Fall der Altersvariablen (numerisch) wurde das Medianalter, das auf dem Trainingsset berechnet wurde, zur Imputation der fehlenden Werte verwendet. Der Grund für die Wahl der Medianimputation ist, dass sie gegen Ausreißer und verzerrte Daten resistent ist, die in klinischen Daten verbreitet sind. Für Geschlecht und Läsionsstandort (kategoriale Variablen) wurden fehlende oder nicht spezifizierte Werte nicht ausgeschlossen; sie wurden einer speziellen Kategorie mit der Bezeichnung 'Unbekannt' zugeordnet. Die Methode speichert alle verfügbaren Stichproben, und das Modell kann frei bestimmen, ob die Fehlensfähigkeit selbst prädiktiv ist. Die One-Hot-Codierung wurde dann auf kategorische Variablen angewendet, um sie mit Machine-Learning-Modellen kompatibel zu machen. Alle Vorverarbeitungen, wie Imputation, Codierung usw., wurden nur auf dem Trainingssatz durchgeführt, und dieselben Transformationen wurden für die Validierungs- und Experimentsätze durchgeführt, um Datenverlust zu vermeiden. Es wurden keine Stichproben ausgeschlossen, nur wegen fehlender klinischer Metadaten, was sicherstellte, dass die Daten maximal genutzt und methodische Konsistenz herrschte.

Abbildung 1: Multimodales System zur Klassifikation von Hautläsionen. Der Studienansatz kombiniert dermoskopische Bildmerkmale mit Patientenmetadaten, um Hautläsionen mithilfe von Ensemble-Deep-Learning-Modellen zu klassifizieren. Das Framework umfasst Vorverarbeitung, Feature-Extraktion, multimodale Fusion und Klassifikation, was eine verbesserte diagnostische Leistung und Interpretierbarkeit ermöglicht. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Der Workflow zeigt die vorgeschlagene Klassifikationspipeline, basierend auf dermoskopischen Bildern und klinischen Metadaten des Datensatzes für HAM10000 Hautläsionen. EfficientNet-B4, DenseNet201 und MobileNetV2 werden verwendet, um tiefe Features in Bildern vorzuverarbeiten und zu extrahieren. Die klinischen Metadaten werden codiert, und die Feature-Fusion wird verwendet, um die Bildmerkmale mit den klinischen Metadaten zu kombinieren. Um das Problem des Klassenungleichgewichts anzugehen, wird die Klassenbalancing-Technik im fusionierten multimodalen Merkmalsraum anstelle der Rohbilder oder einzelnen Merkmalsströme verwendet, wobei synthetische Proben die Kombination aus visuellen und klinischen Merkmalen beibehalten und keine unrealistischen Proben erzeugen. Die zusammengeführten Features werden dann auf Klassifikatoren wie XGBoost, LightGBM und einem tiefen neuronalen Klassifikator trainiert.

Abbildung 2: Beispiel-dermoskopische Bilder aus sieben verschiedenen Diagnosegruppen aus dem HAM10000-Datensatz. Bilder zeigen typische visuelle Merkmale, die für die automatisierte Klassifikation verwendet werden. (A) Aktinische Keratosen (akiec), die raue Oberflächen mit unregelmäßiger Pigmentierung zeigen. (B) Basalzellkarzinom (bcc) mit unregelmäßigen Formen und Blutgefäßen. (C) Gutartige, keratoseähnliche Läsionen (bkl), die keratotische Merkmale mit hellbraunen Oberflächen aufweisen. (D) Dermatofibrom (df), mit zentraler, narbenartiger Erscheinung und Pigmentierung. (E) Melanocytäre Nevi (nv), gutartige und relativ symmetrische Mole. (F) Vaskuläre Läsionen (vasc), die aufgrund von Blutgefäßen rötlich-violett erscheinen. (G) Melanom (mel), das sich als unregelmäßig geformte, asymmetrische und multipigmentierte Läsion äußert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Diese dermoskopischen Bilder zeigen die visuelle Heterogenität von Hautläsionen, die Unterschiede in Pigmentierung, Textur und Morphologie der Struktur aufweisen. Diese Unterschiede stellen automatisierte Klassifikationssysteme eine große Herausforderung dar und betonen die Bedeutung von Deep-Learning-basierten Systemen. Merkmalsextraktionstechniken, die empfindlich darauf reagieren, subtile diagnostische Muster aufzudecken. Nach der Beschreibung des Datensatzes zeigt Abbildung 2 die sieben Kategorien von Hautläsionen, die im HAM10000-Datensatz enthalten sind und häufig in der dermatologischen diagnostischen Bildgebungsforschung untersucht werden. Zu diesen Klassen gehören aktinische Keratosen (akiec), Basalzellkarzinom (bcc), gutartige Keratose (bkl), Dermatofibrom (df), melanocytäre Nevi (nv), vaskuläre Läsionen (vasc) und Melanom (mel)²¹. Alle diese Arten von Läsionen weisen einzigartige visuelle Merkmale auf, wie in Abbildung 3 dargestellt, zu denen Variationen in Pigmentmustern, Oberflächentextur, Farbverteilung und Auffälligkeiten entlang der Läsionsränder gehören. Die visuellen Eigenschaften all dieser Läsionen unterscheiden sich und zeichnen sich durch Variationen in Pigmentmustern, Oberflächentextur, Farbverteilung und Auffälligkeiten an den Rändern der Läsionen aus. Dies sind wichtige Eigenschaften, die Dermatologen bei der Durchführung der klinischen Untersuchung berücksichtigen und daher gut von maschinellen Lernmodellen modelliert werden müssen, um die richtige Klassifikation zu erreichen. Obwohl dies die unterscheidenden Merkmale sind, erscheinen viele dieser Läsionen nahezu identisch, was es erschwert, sie bei rein dermoskopischen Bildern zu unterscheiden. Die Unterscheidung zwischen bestimmten Arten von Läsionen ist typischerweise äußerst subtil, aber klinisch relevant, was eine automatische Klassifikation erschwert. Deshalb ist es dringend, leistungsstarke KI-Modelle zu entwickeln, die in der Lage sind, feingranulare visuelle Bilder und subtile Unterschiede in Läsionen zwischen Läsionsklassen zu lernen. Diese Eigenschaften werden nicht nur durch die passende Beschreibung verbessert, was zu einer Verbesserung der Unterscheidungsfähigkeiten des Modells mit verschiedenen Läsionen führt, sondern auch dazu beiträgt, einige gefährliche Erkrankungen wie Melanome früher zu diagnostizieren. Schließlich kann es die diagnostische Genauigkeit verbessern, Kliniker bei Entscheidungen informieren, die zu besseren Patientenergebnissen führen, und helfen, bessere Entscheidungen zu treffen.

Abbildung 3: Klassenspezifische Verteilung der Hautläsionen im HAM10000-Datensatz. Die Abbildung zeigt die Verteilung der sieben in dieser Studie betrachteten Läsionskategorien: Aktinische Keratosen (akiec), Basalzellkarzinom (bcc), Benigne keratoseähnliche Läsionen (bkl), Dermatofibrom (df), melanocytäre Nevi (nv), vaskuläre Läsionen (vasc) und Melanom (mel). Dieses Diagramm veranschaulicht das Klassenungleichgewicht der Läsionsklassen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Die Analyse des Datensatzes zeigt, dass es ein Ungleichgewicht in den Klassen der verschiedenen Läsionentypen gibt. Der häufigste Typ der melanocytären Nevi (nv) mit etwa 6.705 Proben ist der häufigste Typ, gefolgt von Melanom (1.113) und gutartiger Keratose (1.099). Im Gegenteil, es gibt einige Formen von klinisch relevanter Läsionen, die deutlich weniger vertreten sind, wie Dermatofibrom (115) und vaskuläre Läsionen (142). Dieses Unverhältnis stellt eine Bedrohung für Machine-Learning-Modelle dar, da sie dazu neigen könnten, zugunsten der Mehrheitsklassen verzerrt zu sein und nicht in der Lage sind, ungewöhnliche, aber klinisch signifikante Läsionen zu erkennen. Um dieses Problem zu bewältigen und das Training des Modells auf den Modellleistungen in Bezug auf alle Klassen zu verbessern, ist eine fortgeschrittene Vorverarbeitung erforderlich. Strategien sind nötig. Dazu gehören Techniken wie gezielte Datenaugmentation und Klassenbalancing. Die Daten können mit der Technik (Klassenausgleichstechnik) und Klassengewichtsanpassung ausgeglichen werden, die das Modell dazu ermutigt, wesentliche Trends in den unterrepräsentierten Klassen zu erkennen. Die für XGBoost und LightGBM verwendeten Hyperparameter wurden hauptsächlich auf ihre Standardkonfigurationen gesetzt, mit geringfügigen Anpassungen basierend auf vorläufigen Experimenten. Für den tiefen neuronalen Klassifikator wurden architektonische und Trainingsparameter wie die Anzahl der Schichten, Neuronen, Lernrate, Batchgröße und Anzahl der Epochen empirisch mittels Validierungsdaten ausgewählt. Der vollständige Satz der Hyperparameter ist in Tabelle 3 dargestellt. Im Allgemeinen beträgt die Anzahl der in der vorliegenden Studie verwendeten dermoskopischen Bilder insgesamt 10.015. Dies hat den Vorteil, eine umfangreiche Datensammlung zum Trainieren und Testen bereitzustellen, und es ist auch ein mühsamer, aber lohnender Maßstab. Bewerten Sie die Wirksamkeit des vorgeschlagenen Klassifikationssystems für Hautläsionen.

Datenvorverarbeitung

Die Preprocessing-Pipeline bereitet den HAM10000 Datensatz für multimodales Lernen vor, indem sie Bilder standardisiert, tiefe Features extrahiert, klinische Metadaten integriert und Klassenungleichgewichte behebt.

Bildstandardisierung: Alle dermoskopischen Bilder wurden auf 224 × 224 Pixel verkleinert und mittels Z-Score-Normalisierung normalisiert.

Gleichung 1 (1)

Wo ich das Rohbild darstelle, bezeichnet μ den pixelweisen Mittelwert, und σ ist die Standardabweichung.

Deep Feature Extraction: Komplementäre Deep Features wurden mit drei vortrainierten konfaltionellen neuronalen Netzwerken extrahiert: Efficient-Net B4, DenseNet201 sowie MobileNetV2. Jedes Netzwerk ordnet das normalisierte Bild einem Merkmalsvektor zu.

Gleichung 2 (2)

Die extrahierten Merkmale wurden zu einer einheitlichen Darstellung angeordnet:

F_Fusion=F_EffB4 ||F_Dense ||F_MobV2 (3)

(wobei || Verkettung bedeutet)

Integration klinischer Metadaten: Klinische Merkmale wie Alter, Geschlecht sowie Läsionlokalisierung wurden bereinigt, gekennzeichnet und mittels Min-Max-Skalierung normalisiert:

Gleichung 4 (4)

Der verarbeitete Metadatenvektor M_klinischwurde mit Bildmerkmalen verschmolzen, um die endgültige multimodale Eingabe zu konstruieren:

F_kombiniert=F_FusionM_klinisch (5)

Datensatzaufteilung: Eine geschichtete Aufteilung wurde angewandt, um die Klassenverteilung zu erhalten

_D-Zug,_D-Test=Split(F_komibelt,0,8) (6)

Umgang mit Klassenungleichgewichten: Der HAM10000-Datensatz weist ein starkes Ungleichgewicht der Klassen auf, wobei "Nevus"-Stichproben (NV) in anderen Minderheitengruppen, wie DF mit VASC, als unterrepräsentiert gelten. Um dieses Problem zu verringern, wurde die "Synthetic Minority Oversampling Technique" (Klassenausgleichstechnik) eingesetzt. Unter Verwendung neuer synthetischer Proben wurden hergestellt wie folgt:

x_neu=x_i+ λ(x_zi- x_i) (7)

Gleichung 8

Dabei ist x_i eine Minderheitenklassestichprobe, x_zi einer seiner nächsten Nachbarn und λ ein Zufallswert, der aus einer gleichmäßigen Verteilung zwischen 0 und 1 gezogen wird. Die synthetische Probe, wie in Abbildung 4 dargestellt, wird entlang des Liniensegments erzeugt, das x Teil-i verbindet.und Xent verbindet x_i und x_zi.

Abbildung 4: Klassenverteilung im HAM10000-Datensatz vor/nach Anwendung der Klassenbalancing-Technik. (A) Vor der Klassenbalancierung, mit Ungleichgewicht zwischen den Läsionsklassen. (B) Nach der Klassenausgleichung im kombinierten Merkmalsraum, bei dem die Darstellung aller Klassen gleich ist, um Verzerrungen im Klassifikatortrainingsprozess zu vermeiden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Um das Problem des Klassenungleichgewichts im HAM10000-Datensatz anzugehen, wird die Synthetic Minority Over-Sampling Technique (Klassenausgleichstechnik) angewendet. Die Klassenbalancing-Technik erzeugt synthetische Stichproben für die Minderheitenklassen, indem sie zwischen bestehenden Datenpunkten interpoliert, was dazu beiträgt, die Repräsentation unterrepräsentierter Läsionskategorien zu erhöhen. Das Endergebnis der Produktion weiterer Beispiele dieser Minderheitenklassen ist ein ausgewogenerer Datensatz insgesamt in Bezug auf alle sieben Läsionstypen. Diese ausgewogene Darstellung ermöglicht es den Klassifikationsmodellen, mit jeder Klasse besser zu lernen und die Verzerrung bei den Mehrheitsklassen zu minimieren. Daher ist das Modell in der Klassifikation gerechter und empfindlicher, insbesondere gegenüber seltenen, aber klinisch wichtigen Hautläsionen.

Datenschutzschützendes Lernframework

Das vorgeschlagene System schlägt ein multimodales System zur automatisierten Klassifikation von Läsionen auf der Haut vor, das datenschutzbewusst und interpretierbar ist. Das ultimative Ziel des Systems ist es, die diagnostische Leistung zu verbessern und gleichzeitig sensible Patienteninformationen während des gesamten Schulungsprozesses zu schützen. Patientenschutz ist ein wesentliches Bedürfnis in der medizinischen Praxis, da Datenschutzgesetze und ethische Überlegungen im Gesundheitswesen von großer Bedeutung sind. Daher wird das vorgeschlagene Modell ein dezentrales Lernmodell enthalten, das auf den Ideen des föderierten Lernens basiert. In dieser dezentralen Umgebung wird das Modelltraining auf einer Gruppe verteilter Kunden durchgeführt, anstatt alle Patientendaten an einem zentralen Ort zu aggregieren. Alle teilnehmenden Kunden trainieren das Modell lokal auf ihren eigenen Daten, und die Rohdaten der Patienten verlassen die lokale Umgebung nicht. Als Alternative zur Übertragung sensibler medizinischer Unterlagen werden Modellupdates oder Parameter an einen zentralen Server gesendet, um aggregiert zu werden. Dieser kooperative Lernansatz ermöglicht es den verschiedenen Institutionen oder Datenquellen, zur Modellausbildung beizutragen, ohne den Datenschutz zu kompromittieren.

Sei w_t^(k) die Modellparameter des k-ten Clients bei der t-ten Iteration und n_k die Stichprobengröße an diesem Client. Die Aktualisierung des globalen Modells wird berechnet wie folgt:

Gleichung 8 (8)

Diese Aggregationsstrategie stellt sicher, dass Kunden mit größeren Datensätzen proportional mehr zum globalen Modell beitragen, während kleinere Kunden dennoch am Lernprozess teilnehmen können. Durch die Möglichkeit eines kollaborativen Trainings ohne den Austausch von Rohdaten von Patienten wahrt das vorgeschlagene Framework die Privatsphäre und profitiert dennoch von verteiltem Wissen über Datensätze hinweg.

Föderierte experimentelle Einrichtung

Ein simuliertes föderiertes Lernsystem mit dem HAM10000-Datensatz wurde entwickelt, um die Effizienz des angebotenen, datenschutzbewussten Frameworks zu bestätigen. Die Daten wurden in drei Clients aufgeteilt, um eine reale multiinstitutionelle Umgebung mit nicht identisch verteilten (nicht-IID) Daten zu simulieren. Jeder Klient hat eine unterschiedliche Mischung an Läsionenklassen, und das stellt eine weltweite Unterschiedsgruppe zwischen klinischen Zentren dar. Die identische multimodale Feature-Extraction-Pipeline (EfficientNet-B4, DenseNet201, MobileNet V2 und klinische Metadaten) wurde bei jedem Client lokal durchgeführt. In ihrer Schulung aktualisierten die Clients ihre lokalen Modelle eigenständig, und die erlernten Parameter wurden nur mit dem zentralen Server ausgetauscht, um vom FedAvg-Algorithmus aggregiert zu werden. Der Kompromiss zwischen prädiktiver Genauigkeit und Privatsphäre wurde zwischen dem föderierten Modell und dem zentralisierten Trainingsansatz zur Messung der Leistung jedes Modells verglichen. Die in Abbildung 5 dargestellten Testergebnisse zeigen, dass das föderierte Modell wettbewerbsfähig ist, mit nur einer leichten Abnahme der Genauigkeit im Vergleich zum zentralisierten Lernen und deutlich verbessertem Datenschutz.

Abbildung 5: Client-weise Verteilung des HAM10000-Datensatzes. Dies zeigt die Zuteilung von Hautläsionsdaten unter den Patienten und zeigt die Vielfalt in der Datenverteilung. Dies zeigt die Heterogenität der Daten unter den Klienten, ein entscheidender Aspekt des föderierten Lernens. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Heterogene (nicht-IID) Verteilungen von Klienten, die in HAM10000 entstanden, wurden in drei Gruppen unterteilt, um reale klinische Erkrankungen zu modellieren. Die Verteilung der verschiedenen Kategorien von Läsionen innerhalb jedes Klients ist unterschiedlich, insbesondere die Klasse der Nevus (nv), die nicht gleichmäßig über die Klienten verteilt ist. Diese Anordnung ist ein Hinweis auf die realen Schwierigkeiten des föderierten Lernens, bei dem die Daten in Institutionen nicht gleichmäßig verteilt sind.

Leistungsvergleich: zentralisiertes vs. föderiertes Lernen

Um die Wirksamkeit des vorgeschlagenen föderierten Lernrahmens zu bewerten, wurde eine vergleichende Analyse zwischen zentralisierten und föderierten Trainingsstrategien unter Verwendung des HAM10000-Datensatzes durchgeführt, wie in Abbildung 6 dargestellt. Im zentralisierten Rahmen wurden alle Datenproben in einem einzigen Trainingspool zusammengefasst. Das am besten abschneidende zentralisierte Modell, das gestapelte Ensemble, erreichte eine Gesamtgenauigkeit von 96 %. Im Gegensatz dazu verteilte das föderierte Setting den Datensatz auf drei Clients mit nicht identisch verteilten (nicht-IID) Daten, wobei jeder Client das Modell lokal trainierte und nur Modellparameter mit FedAvg teilte. Das föderierte Modell erreichte eine Gesamtgenauigkeit von etwa 94 %, was einem Leistungsunterschied von 2 % im Vergleich zum zentralisierten Ansatz entspricht, wie in Tabelle 4 gezeigt. Dieser marginale Rückgang wird aufgrund dezentraler Optimierung und heterogener Datenverteilung über die Kunden hinweg erwartet.

Obwohl diese kleine Änderung stattfand, schnitt das föderierte Modell weiterhin gut bei der Vorhersage ab. Im zentralisierten Training zeigt das klassenspezifische Verhalten, dass die Mehrheit der Klassen, wie Nevus (nv) (F1-Score = 1,00), stabil bleibt, während Minderheitenklassen wie Dermatofibrom (df) (F1-Wert ≈ 0,65–0,66) empfindlicher gegenüber Verteilungsungleichgewichten sind, was die föderierte Leistung noch stärker beeinflussen könnte. Bemerkenswert ist, dass die föderierte Struktur die Wahrscheinlichkeit minimiert, sensible Patientendaten offenzulegen, da sie nicht den Austausch von medizinischen Rohdaten zwischen den Klienten erfordert.

Abbildung 6: Vergleich föderiertes Lernen vs. zentralisiertes Lernen. Diese Abbildung vergleicht Lernparadigmen anhand von Leistungskennzahlen wie Genauigkeit, Präzision, Abruf und F1-Score. Dies demonstriert die Fähigkeit föderiertes Lernens, eine Leistung zu erzielen, die mit dem traditionellen Lernansatz vergleichbar ist, während gleichzeitig die Privatsphäre gewahrt wird. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Die Ergebnisse aus Tabelle 4 zeigen, dass das föderierte Lernmodell wettbewerbsfähig sein kann, und der Rückgang der Genauigkeit beträgt im Vergleich zum zentralisierten Modell nur geringfügig etwa 2 %. Diese leichte Reduktion lässt sich durch die dezentrale Optimierung und die Nicht-IID-Datenverteilung erklären. Das föderierte Modell hat jedoch einen enormen Vorteil im Hinblick auf Datenschutz, da die sensiblen Patientendaten nicht unter den Kunden geteilt werden. Um einen fairen Vergleich des föderierten Modells und des zentralisierten gestapelten Ensemble-Modells zu ermöglichen, wurde das föderierte Modell mit derselben Architektur und den gleichen Hyperparametern getestet. Der in dieser Studie diskutierte Datenschutzaspekt ist konzeptionell und soll die potenzielle Integration von Techniken wie federiertem Lernen in zukünftige Arbeiten hervorheben. In der aktuellen Implementierung wird keine experimentelle Validierung datenschutzfähiger Mechanismen durchgeführt.

Multimodale Merkmalsfusion

Die Diagnose von Hautläsionen umfasst in der Regel die Hautbeobachtung und die klinische Vorgeschichte. Dermatologen berücksichtigen in den meisten Fällen nicht nur dermoskopische Bilder, indem sie sie in Bezug auf Patienteninformationen (Alter, Geschlecht und Ort der Läsion) platzieren, um ihre diagnostischen Einschätzungen zu treffen. Das vorgeschlagene System basiert auf der Inspiration dieses klinischen Arbeitsablaufs und integriert einen multimodalen Ansatz zum Lernen, um bildbasierte und klinische Daten zu kombinieren. CNNs werden auf bereits vorhandenen dermoskopischen Bildtiefenmerkmalen trainiert. Solche Netzwerke erkennen komplexe visuelle Designs, darunter Farbveränderungen, Läsionsformen, strukturelle Anomalien und Texturmerkmale. Dennoch reichen die Merkmale der Bilder möglicherweise nicht aus, um den klinischen Zustand einer Läsion zu erfassen. Klinische Metadaten zu jedem Bild werden somit ebenfalls in das Lernen einbezogen. Ein Feature-Fusion-Modul wird erstellt, das Deep-Image-Features mit verarbeiteten klinischen Attributen und demografischen Informationen integriert. Diese zusammengesetzte Darstellung bildet eine integrierte multimodale Merkmalsrepräsentation, die sowohl visuelle als auch kontextuelle Informationen jeder Läsion umfasst. Das Modell kann mehrere Datenquellen integrieren, um komplementäre Muster zu erhalten, die die Gesamtklassifikationsfähigkeit verbessern. Die multimodale Repräsentation ermöglicht es dem System, zwischen visuell ähnlichen Läsionen effektiver zu unterscheiden und die klinischen Indikatoren einzubeziehen. Das Modell ist klinisch sinnvoller und effektiver, da es eine nähere Annäherung daran bietet, wie Dermatologen Läsionen in der klinischen Praxis untersuchen.

Gestapeltes Ensemble-Lernen
Das vorgeschlagene Framework verwendet eine gestapelte Ensemble-Lernstrategie, um die Prädiktionsfähigkeit des Systems weiter zu verbessern. Ensemble-Lernen ist eine zusammengesetzte Vorhersagemethode, die zwei oder mehr prädiktive Modelle verwendet, um die Verallgemeinerung zu verbessern und die Vorhersagefehler, die bei einzelnen Modellen auftreten können, zu minimieren. Mehrfach-Basis-Lernende werden unabhängig in der multimodalen Merkmalsrepräsentation trainiert, anstatt einen einzelnen Klassifikator zu verwenden. Alle Basislernenden geben eine Schätzung an, wie wahrscheinlich es ist, dass eine bestimmte Stichprobe zu einer bestimmten Läsionsklasse gehört. Diese Wahrscheinlichkeitsvorhersagen werden dann auf Meta-Ebene aggregiert. Jedem Basislernenden wird ein Gewicht zugewiesen, um seine relative Bedeutung für die Endprognose zu zeigen. Eine Softmax-Aktivierungsfunktion wird verwendet, um die aggregierten Ausgaben zu berechnen und so normalisierte Klassenwahrscheinlichkeiten zu erzeugen. Die Stacked-Ensemble-Methode hat eine Reihe von Vorteilen. Erstens minimiert sie die Vorhersagevarianz durch die Kombination verschiedener Modelle und verbessert somit die Leistung der Verallgemeinerung. Zweitens erhöht es die Stärke, da verschiedene Modelle unterschiedliche Trends in den Daten beschreiben. Drittens verbessert Ensemble-Lernen die Klassifikation von Minderheitenläsionsklassen, insbesondere in medizinischen Daten, wo bestimmte klinische Erkrankungen von Interesse nicht so häufig vorkommen.

Erklärbare Integration von künstlicher Intelligenz

Medizinische KI-Systeme sollten auch klare Erklärungen zu ihren Entscheidungen liefern, auch wenn eine hohe Vorhersagegenauigkeit entscheidend ist. Um KI-Systemen zu vertrauen und in ihrer Praxis effektiv zu sein, sollten Kliniker nachvollziehen können, wie ein Modell zu der von ihm erzeugten Diagnose passt. Um diesem Bedarf gerecht zu werden, integriert der vorgeschlagene Rahmen erklärbare Methoden der künstlichen Intelligenz (XAI), wie in Abbildung 7 dargestellt.

Abbildung 7: Verwirrungsmatrizen verschiedener Klassifikationsmodelle für die Klassifikation mehrerer Hautläsionen. (A) XGBoost, (B) LightGBM, (C) Deep Neural Classifier und (D) Stacked Ensemble Model. Jede Verwirrungsmatrix zeigt die Beziehung zwischen der wahren Klasse (Reihen) und der vorhergesagten Klasse (Spalten) für alle sieben Hautläsionen: akiec, bcc, bkl, df, mel, nv und vasc. Die XGBoost- und LightGBM-Modelle schneiden für die NV- und BKL-Klassen gut ab, obwohl es einige Verwirrungen zwischen Mel und NV gibt. Der Deep Neural Classifier verbessert die Klassifikation von bkl und df und verringert die Verwirrung außerhalb der Diagonalen. Das Stacked Ensemble-Modell zeigt die größte Klassifikationskonsistenz, wobei die Diagonale zunehmend dominant wird. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Das System umfasst zwei beliebte Erklärungsansätze (Modellinterpretierbarkeitstechnik (SHapley Additive Explanations) und Modellinterpretierbarkeitstechnik (Local Interpretable Model-agnostic Explanations)), um Einblicke in die Vorhersagen des Modells zu geben. Die Modellinterpretierbarkeitsmethode erklärt Merkmale auf Ebene der Merkmale, indem sie misst, inwieweit jedes Eingabemerkmal zur Gesamtprognose beigetragen hat. Es hilft dabei zu bestimmen, welche klinischen Variablen bzw. visuellen Qualitäten den größten Einfluss auf das Ergebnis der Klassifikation haben. Dies ermöglicht es Forschern und Klinikern, das Gesamtverhalten des Modells im gesamten Datensatz zu erkennen. Die Modellinterpretierbarkeitstechnik hingegen befasst sich mit lokalen Erklärungen individueller Vorhersagen. Es betont die Bereiche des dermoskopischen Bildes, die den größten Einfluss auf die Entscheidung des Modells haben. Diese visuellen Erklärungen auf Pixelebene ermöglichen es Klinikern, die Bereiche der Läsion, die die Klassifikation beeinflusst haben, visuell zu inspizieren. Der vorgeschlagene Rahmen bietet globale und lokale Interpretierbarkeit; Dies wird durch Integration der Modellinterpretierbarkeitstechnik erreicht. Der Dual-Erklärungsmechanismus erhöht die Transparenz und ermöglicht es Klinikern zu beurteilen, ob das Modell medizinisch signifikante Muster anspricht.

Potenzial für klinische Entscheidungsunterstützung

Datenschutzsicherndes Lernen, multimodale Merkmalsfusion, Ensemble-Modellierung und erklärbare KI sind Schlüsselkomponenten eines integrierten und robusten Systems zur automatischen Klassifikation von Hautläsionen. Idealerweise sollte das System nicht nur eine hohe prognostische Leistungsfähigkeit besitzen, sondern auch transparent und sicher sein, was zwei Schlüsselfaktoren in medizinischen Systemen sind, wie in Abbildung 8 gezeigt.

Abbildung 8: Receiver operating characteristic (ROC)-Kurven für das gestapelte Ensemble-Modell. (A–C) Dies zeigt die ROC-Kurven für die sieben Hautläsionstypen, mit echter positiver Rate (Sensitivität) und falsch-positiver Rate (1-Spezifität). Die Fläche unter der Kurve (AUC) stellt die Leistung des gestapelten Ensemblemodells bei der Unterscheidung zwischen den Klassen dar. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Dieses System bietet erklärbare Vorhersagen und Datenschutz. Daher ist es ein nützliches System für andere dermatologische Diagnostiksysteme. Dieses System ermöglicht es Gesundheitsfachkräften/Dermatologen, den Verdacht auf Läsionen zu beurteilen, die Diagnosegenauigkeit zu verbessern und dadurch Praktikern und Dermatologen zu helfen, Patienten frühzeitig zu diagnostizieren, wenn sie eine schwerwiegendere Erkrankung (z. B. Melanom) haben. Im Wesentlichen zielt dieses System, wie in Abbildung 9 gezeigt, darauf ab, die Technologien der Nutzung von Hightech-KI-Systemen (KI) und der Implementierung realer Anwendungen in die Praxis umzusetzen, um Dermatologen zu helfen, Patienten genauer und mit mehr Vertrauen zu diagnostizieren und gleichzeitig die Privatsphäre und Sicherheit der Patienten sowie deren Komfort zu gewährleisten.

Abbildung 9: Erklärbarkeitsergebnisse mit Modellinterpretierbarkeitstechniken zur Klassifikation von Hautläsionen in mehreren Klassen. (A) SHAP-Diagramm, das Merkmalebeiträge zeigt, die gutartige und bösartige Läsionen beeinflussen. (B) LIME-Erklärung für die BCC-Vorhersage, die die Merkmale veranschaulicht, die positiv und negativ zum Klassifikationsergebnis beitragen. (C) LIME-Erklärung für die akiec-Vorhersage, die die einflussreichsten Merkmale des Modellentscheidungsprozesses hervorhebt. Diese interpretierbaren Visualisierungen zeigen die Regionen und extrahierten Merkmale, die die Vorhersagen des Modells maßgeblich beeinflussen, und verbessern so die Transparenz und das Verständnis des Klassifikationsprozesses bei der Hautläsionsbewertung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Bewertungsstrategie

Um Stichprobenverzerrungen zu vermeiden und die ursprüngliche Klassenverteilung über alle Hautläsionskategorien zu erhalten, wurde der Datensatz in eine 80:20-Zug-Test-Aufteilung aufgeteilt. Die Trainingsteilmenge wurde dann im Verhältnis 90:10 train: validate, um die Hyperparameter abzustimmen und das Modell zu optimieren. Der Testsatz wurde in keiner Phase im Trainingsprozess verwendet und nur am Ende des Trainings als Abschlusstest angewendet, um Datenverluste zu vermeiden und eine unvoreingenommene Leistungsbewertung sicherzustellen. Alle Modelle wurden in gleichen Umgebungen vorbearbeitet und trainiert, die Daten wurden auf die gleiche Weise aufgeteilt und erweitert, und Evaluierungsprotokolle wurden auf dieselbe Weise angewendet und befolgt, was faire und reproduzierbare Vergleiche ermöglichte. Die Modelle wurden gründlich anhand von Genauigkeit, Präzision, Rückruf, F1-Wert und AUC bewertet, mit einer detaillierten Analyse der klassenspezifischen Ergebnisse, um ihre Robustheit sowohl für Haupt- als auch für Minderheitenklassen von Läsionen zu bestimmen. Dieses standardisierte Validierungsinstrument würde dazu beitragen, die Zuverlässigkeit, Transparenz und Generalisierbarkeit des vorgeschlagenen Ansatzes zu erhöhen und potenzielle Inkonsistenzen in der Leistungsberichterstattung zu überwinden.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Vier Klassifikationsmethoden (XGBoost, LightGBM, ein Deep Neural Classifier und ein gestapeltes Ensemble-Modell) wurden für die Klassifikation von Hautläsionen in mehreren Klassen evaluiert. Die Modelle erreichten Gesamtgenauigkeiten von 92 %, 90 %, 94 % und 96 %, was zeigt, dass c

Klassenweise Leistung

Eine detaillierte klassenspezifische Bewertung, einschließlich Präzision, Rückruf und F1-Score für jede Läsionskat...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Das aktuelle Protokoll beschreibt eine reproduzierbare Pipeline zur Erstellung eines interpretierbaren, datenschutzsensiblen, multimodalen Rahmens zur automatischen Klassifizierung von Hautläsionen. Das Protokoll folgt einem systematischen Muster der Steigerung der diagnostischen Leistung durch Modelltransparenz, wobei dermoskopische Bildanalyse mit klinischen Metadaten und interpretierbaren Methoden des maschinellen Lernens kombiniert wird. Der Datensatz HAM10000 Hautläsion ist öffentli...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren haben nichts offenzulegen. Wir haben keine Interessenkonflikte. Die Autoren behaupten, dass künstliche Intelligenz ausschließlich für die Sprachbearbeitung und Formatierung verwendet wurde. Alle wissenschaftlichen Inhalte, Analysen und Interpretationen wurden von den Autoren entwickelt und überprüft.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren danken der MVN University, Palwal, für die akademische Beratung und Forschungsunterstützung. Die Autoren erkennen auch den öffentlich verfügbaren Datensatz HAM10000 Hautläsion an, der für die experimentelle Bewertung dieser Studie verwendet wurde.

Access restricted. Please log in or start a trial to view this content.

Materials

```html

List of materials used in this article
Name	Company	Catalog Number	Comments
DenseNet201 CNN Architektur	IBM	https://arxiv.org/abs/1608.06993	Deep Learning Modell für Bildklassifizierung
EfficientNet-B4 CNN Architektur	Google	https://arxiv.org/abs/1905.11946	Deep Learning Modell für Bildklassifizierung
Google Colaboratory Plattform	Google	https://colab.research.google.com	Cloud-basiertes Rechenumfeld
HAM10000 Hautläsionen-Datensatz	Harvard Dataverse	https://doi.org/10.7910/DVN/DBW86T	Dermoskopisches Bilddatenset
Keras Deep Learning API	Google	Version 2.x	Neuronale Netzwerk-API
LIME Erklärbarkeitsbibliothek	LIME-Projekt	Version 0.x	Technik zur Modellinterpretierbarkeit
MobileNetV2 CNN Architektur	Google	https://arxiv.org/abs/1801.04381	Deep Learning Modell für Bildklassifizierung
Matplotlib Visualisierungsbibliothek	Matplotlib Entwicklungsteam	Version 3.x	Zum Erstellen von Grafiken und Leistungsvisualisierung verwendet
NVIDIA GPU	NVIDIA	RTX-Serie	Rechenhardware für das Modelltraining
NumPy Numerische Berechnungsbibliothek	NumPy Entwickler	Version 1.x	Software zur Datenanalyse
OpenCV Bildverarbeitungsbibliothek	OpenCV Foundation	Version 4.x	Bildverarbeitungsbibliothek
Pandas Datenanalysebibliothek	Pandas Entwicklungsteam	Version 1.x	Software zur Datenanalyse
Python Programmierumgebung	Python Software Foundation	Version 3.9+	Software zur Datenanalyse
SHAP Erklärbarkeitsbibliothek	SHAP-Projekt	Version 0.x	Technik zur Modellinterpretierbarkeit
SMOTE Überabtastungstechnik	imbalanced-learn-Projekt	Version 0.x	Klassenbalance-Technik zur Behandlung unausgewogener Datensätze
Scikit-learn Maschinelles Lernbibliothek	scikit-learn-Projekt	Version 1.x	Maschinelles Lernbibliothek
TensorFlow Deep Learning Framework	Google	Version 2.x	Deep Learning Framework

```

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Ein erklärbares, datenschutzerhaltendes multimodales Ensemble-Framework für die Klassifikation von Hautläsionen

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles