Research Article

Ein erklärbares, datenschutzerhaltendes multimodales Ensemble-Framework für die Klassifikation von Hautläsionen

June 12th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die vorgeschlagene Arbeit zielt darauf ab, eine erklärbare, privatsphäre schützende multimodale Ensemble-Struktur für eine genaue Klassifikation von Hautläsionen zu entwickeln und zu evaluieren, indem Deep-Learning-Funktionen, klinische Metadaten und erklärbare KI-Techniken integriert werden, um die diagnostische Genauigkeit, Transparenz und zuverlässige klinische Entscheidungsunterstützung für die frühzeitige Hautkrebserkennung zu verbessern.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Unter den dermatologischen Erkrankungen gehört Hautkrebs zu den lebensbedrohlichsten. Eine frühzeitige und genaue Diagnose ist wichtig, um die Prognose eines Patienten zu verbessern. Dennoch stehen traditionelle KI-basierte Diagnosemethoden vor mehreren Herausforderungen, darunter Datenschutzbedenken, eingeschränkte Interpretierbarkeit und ein schwerwiegendes Klassenungleichgewicht in mehrklassigen Hautläsionsdatensätzen. Um diese Herausforderungen zu meistern, schlägt das vorgeschlagene Papier ein datenschutzbewusstes, erklärbares multimodales Klassifikationsmodell für Hautläsionen vor, das komplexe Deep-Learning-Modelle und einen Ensemble-Modellierungsansatz mit erklärbaren Methoden der künstlichen Intelligenz kombiniert. Die experimentelle Bewertung erfolgt unter Verwendung öffentlich zugänglicher HAM10000 Benchmark-Daten zur Klassifikation von Hautläsionen in mehreren Klassen, die über Kaggle Hub zugänglich sind und sich auf sieben klinisch signifikante Läsionsklassen (akiec, bcc, bkl, df, mel, nv, vasc) aufteilen. Um die Daten auszubalancieren, wird eine Klassenbalancing-Technik eingesetzt, um die Minderheitenklassen zu stärken. EfficientNet B4, DenseNet201 und MobileNetv2 werden verwendet, um tiefgehende Feature-Darstellungen zu extrahieren, die anschließend mit wichtigen klinischen Metadaten kombiniert werden, um einen robusten multimodalen Feature-Raum zu schaffen. Diese multimodalen Funktionen werden verwendet, um XGBoost, LightGBM, Deep Neural Classifier (DNC) zu trainieren, die zu Klassifikationsgenauigkeiten von 92 %, 90 % bzw. 94 % führten. Eine gestapelte Ensemble-Strategie wird angewandt, um die Ausgaben von XGBoost, LightGBM und Deep Neural Classifier (DNC) zu kombinieren, was zu einer Verbesserung der Genauigkeit um 96 % führt. Modellinterpretierbarkeitstechniken bieten Erklärungen auf Merkmalsebene, die die Transparenz erhöhen. Die experimentellen Ergebnisse bewiesen die Praktikabilität des vorgeschlagenen Rahmens hinsichtlich der Effizienz bei der klinisch relevanten realen Klassifikation von Hautläsionen.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Hautkrebs stellt eine bedeutende globale Gesundheitsbelastung dar, mit weltweit gemeldeten steigenden Inzidenzraten1. Künstliche Strahlung gilt als ein wesentlicher beitragender Faktor für Hautkrebs und führt zu genetischen Mutationen, die zu unkontrollierter Zellproliferation und Tumorentwicklung in Hautzellenführen 1,2. Hautkrebs umfasst eine Gruppe von Krankheiten, darunter Melanom, Plattenepithelkarzinom und Basalzellkarzinom (BCC). Die Ursachen, das klinische Auftreten und die prognostischen Faktoren dieser Erkrankungen unterscheiden sich alle3. Hauterkrankungen sind aufgrund von Pixel-Ähnlichkeiten zu einem Hindernis in der medizinischen Diagnostik geworden. Im Jahr 2022 gab es weltweit schätzungsweise 331.722 Melanomfälle (58.667 Todesfälle) und 1,2 Millionen NMSC-Fälle (69.416 Todesfälle). Die höchsten altersstandardisierten Inzidenzraten (ASR) für Melanom lagen in Ozeanien (29,78/100.000), Nordamerika (16,3) und Europa (10,43). Allerdings war das Mortalitäts-Inzidenz-Verhältnis in Afrika (0,35) und Asien (0,30) am höchsten im Vergleich zu Nordamerika und Ozeanien (0,02 in beiden), was auf eine schlechtere Prognose1 hinweisen könnte. In der Dermatologie basierte die Diagnose und Überwachung von Hautläsionen hauptsächlich auf visueller Untersuchung und anderen nicht-invasiven Untersuchungen. Invasive Methoden werden nicht angewandt, da sie die Läsionen schädigen und die Durchführung einer klinischen Nachbeobachtung des Wachstums verhindernkönnen. Hautläsionen können verschiedene Typen sein: Melanom (MEL), Dermatofibrom (DF), aktinische Keratose und intraepitiheliales Karzinom (AKIEC), Basalzellkarzinom (BCC), gutartige Keratose (BKL), melanocytärer Nevus (NV) und vaskuläre Läsionen (VASC), wie im HAM10000 Dataset5 definiert. Große Herausforderungen bei der Klassifikation dermatoskopischer Bilder sind das Vorhandensein von Haaren, Tinten, Linealmarkierungen, farbigen Flecken, Schimmern, Tropfen, Ölblasen, Blutgefäßen, hyperpigmentierten Bereichen und/oder entzündlichen Läsionen6. Es gab bereits Studien zur Merkmalsauswahl und Deep Learning für medizinische Bildgebung und Hautläsionklassifikation 7,8.

Computer-Vision-basierte Ansätze zur Hautkrebsdiagnose und die Integration von handgefertigten und tiefen Merkmalen wurden ebenfalls untersucht, ebensowie Merkmalsfusionsstrategien zur Verbesserung der Klassifikationsleistung10. Jüngste Fortschritte betonen zudem die Integration von maschinellem Lernen in Gesundheitssysteme und sichere medizinische Datenverarbeitungsrahmen11,12. Die Nutzung von KI-Gesundheitswesen, die von fortschrittlichen Computeralgorithmen angetrieben wird, hat das Potenzial, personalisierte und effiziente integrierte Versorgungsprogramme zu liefern, die insbesondere für Patienten in Fern- und häuslichen Pflegeumgebungen von Vorteil sind13. Durch die Nutzung umfangreicher Datensätze dermatoskopischer Bilder können Deep-Learning-Modelle – insbesondere konvolutionale neuronale Netzwerke (CNNs) – darauf trainiert werden, verschiedene Hautläsionen genau zu identifizieren und zu klassifizieren. Mehrere Techniken zeigen starke Ergebnisse bei der Hautläsionssegmentierung, darunter vollständig konvolutionelle Netzwerke (FCNs), CNNs, Deep CNNs (DCNNs), vollständig konvolutionelle Residualnetze (FCRNs) und U-Net-Architekturen. Tiefe neuronale Netze (DNNs) sind aufgrund ihrer hochkomplexen Architektur nicht leicht interpretierbar, weshalb ihr Entscheidungsprozess schwer zu verstehen ist14,15. Jüngste Fortschritte in der medizinischen Bildanalyse haben gezeigt, dass tiefe konvolutionelle neuronale Netze (CNNs) die Effizienz bei der Klassifikation von Hautläsionen signifikant verbessern. Mehrere Studien zu dermoskopischen Datensätzen wie HAM10000 haben gezeigt, dass CNN-basierte Architekturen wie ResNet, DenseNet und EfficientNet durch das Lernen hierarchischer Merkmalsrepräsentationen aus Läsionsbildern eine starke Multi-Klassen-Klassifikation erzielen. Hybride Feature-Fusionsansätze, bei denen mehrere CNN-Backbones kombiniert werden, haben die diagnostische Genauigkeit durch die Integration komplementärer tiefer Repräsentationenweiter verbessert 16. Darüber hinaus haben aktuelle Studien hybride CNN-Transformatormodelle in der medizinischen Bildanalyse untersucht. Modelle mit Vision Transformer und CNN-Merkmalsextraktoren haben nachweislich bessere Ergebnisse bei der Klassifikation von Hautläsionen, da sie besser in der Lage sind, lokale Texturinhalte sowie globale kontextuelle Beziehungen zu extrahieren17. Diese hybriden Designs gelten auch als Stand der Technik in der medizinischen Bildgebung, da sie eine ausgewogene Repräsentationsfähigkeit besitzen.

In anderen Bereichen der Medizin wurden Merkmalfusionsstrategien außerhalb der Dermatologie umfangreich eingesetzt. CNN-basierte Hybridsysteme wurden auch bei der Analyse histopathologischer Bilder eingesetzt, um eine bessere Klassifikation von Lungen- und Darmkrebs mit verbesserten Merkmalsrepräsentationen und räumlicher Lerndynamik zuerreichen. Ebenso hat in der Ophthalmologie der Einsatz von Deep-Learning-Modellen, die auf verschmolzenen Merkmalsrepräsentationen trainiert sind, eine erfolgreiche Anwendung in der diabetischen Retinopathie-Staging von Fundusbildern gezeigt, mit besserer Robustheit und Klassifikationsgenauigkeit in einer mehrklassigen Bewertungsaufgabe18. Multimodale Fusionsmethoden in diesen Bereichen deuten alle darauf hin, dass heterogene Merkmalsrepräsentationen eine bessere Verallgemeinerung und Klassifikation liefern, insbesondere in unausgewogenen medizinischen Daten19.

Obwohl diese Verbesserungen vorgenommen wurden, sind die aktuellen Praktiken meist darauf beschränkt, multimodal zu sein, nicht integriert, unzureichend, um das Problem des Klassenungleichgewichts anzugehen, und wenig hilfreich in klinischen Entscheidungen. Um diese Probleme zu überwinden, präsentiert dieses Papier ein erklärbares Klassifikationsmodell für Hautläsionen, das datenschutzbewusst ist und beide Methoden der Modellinterpretierbarkeit integriert. Solche Erklärbarkeitsmethoden können verwendet werden, um die Vorhersagen des Modells zu erklären, aufzuzeigen, welche Merkmale am wichtigsten sind, und bedeutende Bereiche dermoskopischer Bilder hervorzuheben, wodurch die Klarheit und das Vertrauen in klinische Verfahren erhöht werden, wodurch die klinische Transparenz verbessert, Vertrauen geschaffen und die sichere Implementierung von KI-Systemen in der klinischen Praxis unterstützt wird. Es gibt ein erhebliches Ungleichgewicht im HAM10000-Datensatz, wobei einige Klassen deutlich weniger Stichproben aufweisen als andere. Um dieses Problem zu überwinden, wird die synthetische Minderheiten-Übersampling-Technik (auch bekannt als Klassenbalancing) verwendet, um synthetische Stichproben für unterrepräsentierte Klassen zu erzeugen. Klassenausgleichstechniken balancieren den Datensatz aus, sodass das Modell besser von Minderheitenläsionen lernen kann, die Sensitivität erhöht und eine zuverlässigere Vorhersage klinisch signifikanter, aber seltenerer Hautkrebsklassen ermöglicht.  Tiefgehende Funktionen von EfficientNet-B4, DenseNet201 und MobileNetV2 werden mit den klinischen Metadaten kombiniert, um eine informativere Darstellung jeder Hautläsion zu bilden. Dieses doppelte Merkmal hilft uns, die visuellen Muster dermoskopischer Bilder und anderer Patienteninformationen für eine tiefere Analyse zu extrahieren. Die Merkmale werden anschließend auf verschiedenen Klassifikatoren trainiert, darunter XGBoost, LightGBM und ein Deep Neural Network, um die Leistungsfähigkeit und Wirksamkeit des Hautläsionsklassifikationsmodells zu verbessern. Das Ensemble der Modelle wird mit einer Stacking-Ensemble-Technik verwendet, um das Modell zu verstärken. Dies ist ein zusammengesetztes Modell, das die Stärken mehrerer Modelle nutzt, um von den Vorhersagen aller Modelle im Ensemble zu lernen und davon zu profitieren und gleichzeitig deren Einschränkungen abzumildern.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie nutzte öffentlich zugängliche, vollständig anonymisierte dermoskopische Datensätze und beinhaltete keine direkte menschliche Beteiligung; Daher war keine Genehmigung des ethischen Komitees erforderlich. Die Materialtabelle enthält Details zu allen in dieser Studie verwendeten Materialien oder Werkzeugen. Tabelle 1 enthält Details zur Hardware- und Softwareumgebung, wie Prozessortyp, Speicher, Betriebssystem und Software-Frameworks. Tabelle 2 enthält Details zur klassenspezifischen Präzision, Rückruf, F1-Wert und Unterstützung für jede Hautläsionskategorie.

Gesamtablauf des vorgeschlagenen multimodalen Klassifikationsrahmens für Hautläsionen

Der Grundplan dieser Forschung ist es, ein präzises und verständliches Schema der Mehrfachklassifikation von Hautläsionen zu erstellen. Der Workflow beginnt mit der Datenerhebung und Vorverarbeitung des HAM10000 Datensatzes und fährt dann mit der Feature-Extraktion mittels Deep-Learning-Architekturen und der Einbindung klinischer Metadaten über. Anschließend werden mehrere maschinelle Lernklassifikatoren trainiert und optimiert, und ihre Ergebnisse werden in einer Ensemble-Strategie aggregiert. Schließlich werden die Vorhersagen des Modells mithilfe von Erklärbarkeitstechniken interpretiert und die Wirksamkeit des Modells für den Einsatz in der praxisnahen klinischen Entscheidungsunterstützung bewertet.

Um die prädiktive Genauigkeit des vorgeschlagenen Systems zu verbessern, wird eine multimodale maschinelle Lernpipeline verwendet, die sowohl bildbasierte Funktionen als auch klinische Metadaten kombiniert (wie in Abbildung 1 dargestellt. Das Modell kann die visuellen Ergebnisse dermoskopischer Bilder mit den Informationen des Patienten zusammenfassen, um detailliertere Muster verschiedener Hautläsionen zu identifizieren. Mit einer solchen Kombination kann das System bessere Vorhersagen treffen, was letztlich zutrifft. Verbessern Sie die Qualität und Nützlichkeit der Hautläsionklassifikation. Drei vortrainierte konfaltionelle Deep-Merkmale werden mit Hilfe neuronaler Netze extrahiert (EfficientNet-B4, DenseNet201 und MobileNetV2): Sie sind in der Lage, eine Vielzahl komplementärer Muster dermoskopischer Bilder zu erfassen. Diese Architekturen lernen hochrangige Muster darin, wie Hautläsionen aussehen, wie Farb- und Texturwechsel sowie wie sie aufgebaut sind. Anschließend kombiniert ein Feature-Fusion-Modul die tiefgründigen Features mit klinischen Merkmalen und demografischen Daten, um ein reichhaltiges multimodales Feature zu schaffen. Die zusammengeführten Daten werden dann in Trainings-, Validierungs- und Testdaten aufgeteilt, um eine angemessene Modelltestung sicherzustellen. Als nächstes wird ein Feature-Fusion-Modul verwendet, um die tiefen Features mit den klinischen Features und demografischen Daten zu verbinden, um ein reichhaltiges multimodales Feature zu erzeugen. Diese Daten werden dann in Trainings-, Test- und Validierungsdaten aufgeteilt, um das Modell zu testen. Eine Ensemble-Strategie wird verwendet, um die Vorhersagegenauigkeit weiter zu verbessern. Dies geschieht, indem die Ergebnisse mehrerer Modelle gemittelt und die endgültige Vorhersage anhand dieser gemittelten Wahrscheinlichkeiten gemittelt werden, um die Verallgemeinerung zu verbessern und die Varianz zu minimieren, die sonst durch einzelne Modelle verursacht worden wäre. Darüber hinaus werden auch Erklärbarkeitsmethoden wie Modellinterpretierbarkeitstechniken integriert, um weiter zu erklären, wie das Modell seine Entscheidungen trifft. Die Methode der Modellinterpretierbarkeit bietet Interpretationen auf Merkmalsebene, indem der Beitrag von Eingabevariablen quantifiziert wird, während die Methode der Modellinterpretierbarkeit wichtige Bereiche innerhalb dermoskopischer Bilder auf Pixelebene identifiziert, die die Vorhersage beeinflussen. Modellinterpretierbarkeitstechniken bieten Erklärungen auf Merkmalsebene, indem sie den Beitrag jeder Eingabevariablen quantifizieren, während Modellinterpretierbarkeitstechniken wichtige Bereiche auf Pixelebene in dermoskopischen Bildern hervorheben, die die Vorhersage beeinflussen. Zusammen machen diese Techniken die Modelle interpretierbarer und helfen Klinikern, die Entscheidungsprozesse des Systems kennenzulernen. Daher bietet die vorgeschlagene Pipeline ein verständliches und datenschutzbewusstes System, das Transparenz und Vertrauen erhöht und eine zuverlässigere Hautkrebsdiagnose in einer realen Gesundheitseinrichtung ermöglicht.

Datensatzbeschreibung mit Vorbereitung

In diesem Artikel wird der Datensatz HAM10000 (Mensch gegen Maschine mit 10.000 Trainingsbildern) als primärer Datensatz für die Klassifikation mehrerer Hautläsionen verwendet. Der Datensatz enthält über 10.000 dermoskopische Figuren, die aus verschiedenen medizinischen Quellen gesammelt wurden. Klinische Quellen und Populationen, was es zu einem der am weitesten verbreiteten Benchmark-Datensätze in der dermatologischen Bildanalyse macht. Jedes Bild im Datensatz wird von wichtigen klinischen Metadaten begleitet, darunter Bildidentifikatoren, diagnostische Etiketten, Patientenalter, Geschlecht und anatomische Lage der Läsion. Der Datensatz umfasst sieben diagnostische Kategorien: aktinische Keratosen (AKICEC), Basalzellkarzinom (BCC), gutartige Keratose (BKL), Dermatofibrom (DF), melanocytäre Nevi (NV), vaskuläre Läsionen (VASC) und Melanom (Melanom).

Klinische Metadaten-Vorverarbeitung

Ergänzende Merkmale, die der Klassifikationspipeline hinzugefügt wurden, umfassten klinische Metadaten wie Alter, Geschlecht und die Lage der Läsion beim Patienten. Es fehlten oder unbekannte Werte, die durch einen deterministischen Vorverarbeitungsansatz behandelt wurden. Im Fall der Altersvariablen (numerisch) wurde das Medianalter, das auf dem Trainingsset berechnet wurde, zur Imputation der fehlenden Werte verwendet. Der Grund für die Wahl der Medianimputation ist, dass sie gegen Ausreißer und verzerrte Daten resistent ist, die in klinischen Daten verbreitet sind. Für Geschlecht und Läsionsstandort (kategoriale Variablen) wurden fehlende oder nicht spezifizierte Werte nicht ausgeschlossen; sie wurden einer speziellen Kategorie mit der Bezeichnung 'Unbekannt' zugeordnet. Die Methode speichert alle verfügbaren Stichproben, und das Modell kann frei bestimmen, ob die Fehlensfähigkeit selbst prädiktiv ist. Die One-Hot-Codierung wurde dann auf kategorische Variablen angewendet, um sie mit Machine-Learning-Modellen kompatibel zu machen. Alle Vorverarbeitungen, wie Imputation, Codierung usw., wurden nur auf dem Trainingssatz durchgeführt, und dieselben Transformationen wurden für die Validierungs- und Experimentsätze durchgeführt, um Datenverlust zu vermeiden. Es wurden keine Stichproben ausgeschlossen, nur wegen fehlender klinischer Metadaten, was sicherstellte, dass die Daten maximal genutzt und methodische Konsistenz herrschte.

figure-protocol-1
Abbildung 1: Multimodales System zur Klassifikation von Hautläsionen. Der Studienansatz kombiniert dermoskopische Bildmerkmale mit Patientenmetadaten, um Hautläsionen mithilfe von Ensemble-Deep-Learning-Modellen zu klassifizieren. Das Framework umfasst Vorverarbeitung, Feature-Extraktion, multimodale Fusion und Klassifikation, was eine verbesserte diagnostische Leistung und Interpretierbarkeit ermöglicht. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Der Workflow zeigt die vorgeschlagene Klassifikationspipeline, basierend auf dermoskopischen Bildern und klinischen Metadaten des Datensatzes für HAM10000 Hautläsionen. EfficientNet-B4, DenseNet201 und MobileNetV2 werden verwendet, um tiefe Features in Bildern vorzuverarbeiten und zu extrahieren. Die klinischen Metadaten werden codiert, und die Feature-Fusion wird verwendet, um die Bildmerkmale mit den klinischen Metadaten zu kombinieren. Um das Problem des Klassenungleichgewichts anzugehen, wird die Klassenbalancing-Technik im fusionierten multimodalen Merkmalsraum anstelle der Rohbilder oder einzelnen Merkmalsströme verwendet, wobei synthetische Proben die Kombination aus visuellen und klinischen Merkmalen beibehalten und keine unrealistischen Proben erzeugen. Die zusammengeführten Features werden dann auf Klassifikatoren wie XGBoost, LightGBM und einem tiefen neuronalen Klassifikator trainiert.

figure-protocol-2
Abbildung 2: Beispiel-dermoskopische Bilder aus sieben verschiedenen Diagnosegruppen aus dem HAM10000-Datensatz. Bilder zeigen typische visuelle Merkmale, die für die automatisierte Klassifikation verwendet werden. (A) Aktinische Keratosen (akiec), die raue Oberflächen mit unregelmäßiger Pigmentierung zeigen. (B) Basalzellkarzinom (bcc) mit unregelmäßigen Formen und Blutgefäßen. (C) Gutartige, keratoseähnliche Läsionen (bkl), die keratotische Merkmale mit hellbraunen Oberflächen aufweisen. (D) Dermatofibrom (df), mit zentraler, narbenartiger Erscheinung und Pigmentierung. (E) Melanocytäre Nevi (nv), gutartige und relativ symmetrische Mole. (F) Vaskuläre Läsionen (vasc), die aufgrund von Blutgefäßen rötlich-violett erscheinen. (G) Melanom (mel), das sich als unregelmäßig geformte, asymmetrische und multipigmentierte Läsion äußert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Diese dermoskopischen Bilder zeigen die visuelle Heterogenität von Hautläsionen, die Unterschiede in Pigmentierung, Textur und Morphologie der Struktur aufweisen. Diese Unterschiede stellen automatisierte Klassifikationssysteme eine große Herausforderung dar und betonen die Bedeutung von Deep-Learning-basierten Systemen. Merkmalsextraktionstechniken, die empfindlich darauf reagieren, subtile diagnostische Muster aufzudecken. Nach der Beschreibung des Datensatzes zeigt Abbildung 2 die sieben Kategorien von Hautläsionen, die im HAM10000-Datensatz enthalten sind und häufig in der dermatologischen diagnostischen Bildgebungsforschung untersucht werden. Zu diesen Klassen gehören aktinische Keratosen (akiec), Basalzellkarzinom (bcc), gutartige Keratose (bkl), Dermatofibrom (df), melanocytäre Nevi (nv), vaskuläre Läsionen (vasc) und Melanom (mel)21. Alle diese Arten von Läsionen weisen einzigartige visuelle Merkmale auf, wie in Abbildung 3 dargestellt, zu denen Variationen in Pigmentmustern, Oberflächentextur, Farbverteilung und Auffälligkeiten entlang der Läsionsränder gehören. Die visuellen Eigenschaften all dieser Läsionen unterscheiden sich und zeichnen sich durch Variationen in Pigmentmustern, Oberflächentextur, Farbverteilung und Auffälligkeiten an den Rändern der Läsionen aus. Dies sind wichtige Eigenschaften, die Dermatologen bei der Durchführung der klinischen Untersuchung berücksichtigen und daher gut von maschinellen Lernmodellen modelliert werden müssen, um die richtige Klassifikation zu erreichen. Obwohl dies die unterscheidenden Merkmale sind, erscheinen viele dieser Läsionen nahezu identisch, was es erschwert, sie bei rein dermoskopischen Bildern zu unterscheiden. Die Unterscheidung zwischen bestimmten Arten von Läsionen ist typischerweise äußerst subtil, aber klinisch relevant, was eine automatische Klassifikation erschwert. Deshalb ist es dringend, leistungsstarke KI-Modelle zu entwickeln, die in der Lage sind, feingranulare visuelle Bilder und subtile Unterschiede in Läsionen zwischen Läsionsklassen zu lernen. Diese Eigenschaften werden nicht nur durch die passende Beschreibung verbessert, was zu einer Verbesserung der Unterscheidungsfähigkeiten des Modells mit verschiedenen Läsionen führt, sondern auch dazu beiträgt, einige gefährliche Erkrankungen wie Melanome früher zu diagnostizieren. Schließlich kann es die diagnostische Genauigkeit verbessern, Kliniker bei Entscheidungen informieren, die zu besseren Patientenergebnissen führen, und helfen, bessere Entscheidungen zu treffen.

figure-protocol-3
Abbildung 3: Klassenspezifische Verteilung der Hautläsionen im HAM10000-Datensatz. Die Abbildung zeigt die Verteilung der sieben in dieser Studie betrachteten Läsionskategorien: Aktinische Keratosen (akiec), Basalzellkarzinom (bcc), Benigne keratoseähnliche Läsionen (bkl), Dermatofibrom (df), melanocytäre Nevi (nv), vaskuläre Läsionen (vasc) und Melanom (mel). Dieses Diagramm veranschaulicht das Klassenungleichgewicht der Läsionsklassen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Die Analyse des Datensatzes zeigt, dass es ein Ungleichgewicht in den Klassen der verschiedenen Läsionentypen gibt. Der häufigste Typ der melanocytären Nevi (nv) mit etwa 6.705 Proben ist der häufigste Typ, gefolgt von Melanom (1.113) und gutartiger Keratose (1.099). Im Gegenteil, es gibt einige Formen von klinisch relevanter Läsionen, die deutlich weniger vertreten sind, wie Dermatofibrom (115) und vaskuläre Läsionen (142). Dieses Unverhältnis stellt eine Bedrohung für Machine-Learning-Modelle dar, da sie dazu neigen könnten, zugunsten der Mehrheitsklassen verzerrt zu sein und nicht in der Lage sind, ungewöhnliche, aber klinisch signifikante Läsionen zu erkennen. Um dieses Problem zu bewältigen und das Training des Modells auf den Modellleistungen in Bezug auf alle Klassen zu verbessern, ist eine fortgeschrittene Vorverarbeitung erforderlich. Strategien sind nötig. Dazu gehören Techniken wie gezielte Datenaugmentation und Klassenbalancing. Die Daten können mit der Technik (Klassenausgleichstechnik) und Klassengewichtsanpassung ausgeglichen werden, die das Modell dazu ermutigt, wesentliche Trends in den unterrepräsentierten Klassen zu erkennen. Die für XGBoost und LightGBM verwendeten Hyperparameter wurden hauptsächlich auf ihre Standardkonfigurationen gesetzt, mit geringfügigen Anpassungen basierend auf vorläufigen Experimenten. Für den tiefen neuronalen Klassifikator wurden architektonische und Trainingsparameter wie die Anzahl der Schichten, Neuronen, Lernrate, Batchgröße und Anzahl der Epochen empirisch mittels Validierungsdaten ausgewählt. Der vollständige Satz der Hyperparameter ist in Tabelle 3 dargestellt. Im Allgemeinen beträgt die Anzahl der in der vorliegenden Studie verwendeten dermoskopischen Bilder insgesamt 10.015. Dies hat den Vorteil, eine umfangreiche Datensammlung zum Trainieren und Testen bereitzustellen, und es ist auch ein mühsamer, aber lohnender Maßstab. Bewerten Sie die Wirksamkeit des vorgeschlagenen Klassifikationssystems für Hautläsionen.

Datenvorverarbeitung

Die Preprocessing-Pipeline bereitet den HAM10000 Datensatz für multimodales Lernen vor, indem sie Bilder standardisiert, tiefe Features extrahiert, klinische Metadaten integriert und Klassenungleichgewichte behebt.

Bildstandardisierung: Alle dermoskopischen Bilder wurden auf 224 × 224 Pixel verkleinert und mittels Z-Score-Normalisierung normalisiert.

figure-protocol-4 (1)

Wo ich das Rohbild darstelle, bezeichnet μ den pixelweisen Mittelwert, und σ ist die Standardabweichung.

Deep Feature Extraction: Komplementäre Deep Features wurden mit drei vortrainierten konfaltionellen neuronalen Netzwerken extrahiert: Efficient-Net B4, DenseNet201 sowie MobileNetV2. Jedes Netzwerk ordnet das normalisierte Bild einem Merkmalsvektor zu.

figure-protocol-5(2)

Die extrahierten Merkmale wurden zu einer einheitlichen Darstellung angeordnet:

FFusion=FEffB4 ||FDense ||FMobV2 (3)

(wobei || Verkettung bedeutet)

Integration klinischer Metadaten: Klinische Merkmale wie Alter, Geschlecht sowie Läsionlokalisierung wurden bereinigt, gekennzeichnet und mittels Min-Max-Skalierung normalisiert:

figure-protocol-6 (4)

Der verarbeitete Metadatenvektor Mklinisch wurde mit Bildmerkmalen verschmolzen, um die endgültige multimodale Eingabe zu konstruieren:

Fkombiniert=FFusionMklinisch (5)

Datensatzaufteilung: Eine geschichtete Aufteilung wurde angewandt, um die Klassenverteilung zu erhalten

D-Zug,D-Test=Split(Fkomibelt,0,8) (6)

Umgang mit Klassenungleichgewichten: Der HAM10000-Datensatz weist ein starkes Ungleichgewicht der Klassen auf, wobei "Nevus"-Stichproben (NV) in anderen Minderheitengruppen, wie DF mit VASC, als unterrepräsentiert gelten. Um dieses Problem zu verringern, wurde die "Synthetic Minority Oversampling Technique" (Klassenausgleichstechnik) eingesetzt. Unter Verwendung neuer synthetischer Proben wurden hergestellt wie folgt:

xneu=xi + λ(xzi - xi) (7)

figure-protocol-7

Dabei ist xi eine Minderheitenklassestichprobe, xzi einer seiner nächsten Nachbarn und λ ein Zufallswert, der aus einer gleichmäßigen Verteilung zwischen 0 und 1 gezogen wird. Die synthetische Probe, wie in Abbildung 4 dargestellt, wird entlang des Liniensegments erzeugt, das x Teil-i verbindet.und Xent verbindet xi und xzi.

figure-protocol-8
Abbildung 4: Klassenverteilung im HAM10000-Datensatz vor/nach Anwendung der Klassenbalancing-Technik. (A) Vor der Klassenbalancierung, mit Ungleichgewicht zwischen den Läsionsklassen. (B) Nach der Klassenausgleichung im kombinierten Merkmalsraum, bei dem die Darstellung aller Klassen gleich ist, um Verzerrungen im Klassifikatortrainingsprozess zu vermeiden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Um das Problem des Klassenungleichgewichts im HAM10000-Datensatz anzugehen, wird die Synthetic Minority Over-Sampling Technique (Klassenausgleichstechnik) angewendet. Die Klassenbalancing-Technik erzeugt synthetische Stichproben für die Minderheitenklassen, indem sie zwischen bestehenden Datenpunkten interpoliert, was dazu beiträgt, die Repräsentation unterrepräsentierter Läsionskategorien zu erhöhen. Das Endergebnis der Produktion weiterer Beispiele dieser Minderheitenklassen ist ein ausgewogenerer Datensatz insgesamt in Bezug auf alle sieben Läsionstypen. Diese ausgewogene Darstellung ermöglicht es den Klassifikationsmodellen, mit jeder Klasse besser zu lernen und die Verzerrung bei den Mehrheitsklassen zu minimieren. Daher ist das Modell in der Klassifikation gerechter und empfindlicher, insbesondere gegenüber seltenen, aber klinisch wichtigen Hautläsionen.

Datenschutzschützendes Lernframework

Das vorgeschlagene System schlägt ein multimodales System zur automatisierten Klassifikation von Läsionen auf der Haut vor, das datenschutzbewusst und interpretierbar ist. Das ultimative Ziel des Systems ist es, die diagnostische Leistung zu verbessern und gleichzeitig sensible Patienteninformationen während des gesamten Schulungsprozesses zu schützen. Patientenschutz ist ein wesentliches Bedürfnis in der medizinischen Praxis, da Datenschutzgesetze und ethische Überlegungen im Gesundheitswesen von großer Bedeutung sind. Daher wird das vorgeschlagene Modell ein dezentrales Lernmodell enthalten, das auf den Ideen des föderierten Lernens basiert. In dieser dezentralen Umgebung wird das Modelltraining auf einer Gruppe verteilter Kunden durchgeführt, anstatt alle Patientendaten an einem zentralen Ort zu aggregieren. Alle teilnehmenden Kunden trainieren das Modell lokal auf ihren eigenen Daten, und die Rohdaten der Patienten verlassen die lokale Umgebung nicht. Als Alternative zur Übertragung sensibler medizinischer Unterlagen werden Modellupdates oder Parameter an einen zentralen Server gesendet, um aggregiert zu werden. Dieser kooperative Lernansatz ermöglicht es den verschiedenen Institutionen oder Datenquellen, zur Modellausbildung beizutragen, ohne den Datenschutz zu kompromittieren.

Sei wt(k) die Modellparameter des k-ten Clients bei der t-ten Iteration und nk die Stichprobengröße an diesem Client. Die Aktualisierung des globalen Modells wird berechnet wie folgt:

figure-protocol-9 (8)

Diese Aggregationsstrategie stellt sicher, dass Kunden mit größeren Datensätzen proportional mehr zum globalen Modell beitragen, während kleinere Kunden dennoch am Lernprozess teilnehmen können. Durch die Möglichkeit eines kollaborativen Trainings ohne den Austausch von Rohdaten von Patienten wahrt das vorgeschlagene Framework die Privatsphäre und profitiert dennoch von verteiltem Wissen über Datensätze hinweg.

Föderierte experimentelle Einrichtung

Ein simuliertes föderiertes Lernsystem mit dem HAM10000-Datensatz wurde entwickelt, um die Effizienz des angebotenen, datenschutzbewussten Frameworks zu bestätigen. Die Daten wurden in drei Clients aufgeteilt, um eine reale multiinstitutionelle Umgebung mit nicht identisch verteilten (nicht-IID) Daten zu simulieren. Jeder Klient hat eine unterschiedliche Mischung an Läsionenklassen, und das stellt eine weltweite Unterschiedsgruppe zwischen klinischen Zentren dar. Die identische multimodale Feature-Extraction-Pipeline (EfficientNet-B4, DenseNet201, MobileNet V2 und klinische Metadaten) wurde bei jedem Client lokal durchgeführt. In ihrer Schulung aktualisierten die Clients ihre lokalen Modelle eigenständig, und die erlernten Parameter wurden nur mit dem zentralen Server ausgetauscht, um vom FedAvg-Algorithmus aggregiert zu werden. Der Kompromiss zwischen prädiktiver Genauigkeit und Privatsphäre wurde zwischen dem föderierten Modell und dem zentralisierten Trainingsansatz zur Messung der Leistung jedes Modells verglichen. Die in Abbildung 5 dargestellten Testergebnisse zeigen, dass das föderierte Modell wettbewerbsfähig ist, mit nur einer leichten Abnahme der Genauigkeit im Vergleich zum zentralisierten Lernen und deutlich verbessertem Datenschutz.

figure-protocol-10
Abbildung 5: Client-weise Verteilung des HAM10000-Datensatzes. Dies zeigt die Zuteilung von Hautläsionsdaten unter den Patienten und zeigt die Vielfalt in der Datenverteilung. Dies zeigt die Heterogenität der Daten unter den Klienten, ein entscheidender Aspekt des föderierten Lernens. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Heterogene (nicht-IID) Verteilungen von Klienten, die in HAM10000 entstanden, wurden in drei Gruppen unterteilt, um reale klinische Erkrankungen zu modellieren. Die Verteilung der verschiedenen Kategorien von Läsionen innerhalb jedes Klients ist unterschiedlich, insbesondere die Klasse der Nevus (nv), die nicht gleichmäßig über die Klienten verteilt ist. Diese Anordnung ist ein Hinweis auf die realen Schwierigkeiten des föderierten Lernens, bei dem die Daten in Institutionen nicht gleichmäßig verteilt sind.

Leistungsvergleich: zentralisiertes vs. föderiertes Lernen

Um die Wirksamkeit des vorgeschlagenen föderierten Lernrahmens zu bewerten, wurde eine vergleichende Analyse zwischen zentralisierten und föderierten Trainingsstrategien unter Verwendung des HAM10000-Datensatzes durchgeführt, wie in Abbildung 6 dargestellt. Im zentralisierten Rahmen wurden alle Datenproben in einem einzigen Trainingspool zusammengefasst. Das am besten abschneidende zentralisierte Modell, das gestapelte Ensemble, erreichte eine Gesamtgenauigkeit von 96 %. Im Gegensatz dazu verteilte das föderierte Setting den Datensatz auf drei Clients mit nicht identisch verteilten (nicht-IID) Daten, wobei jeder Client das Modell lokal trainierte und nur Modellparameter mit FedAvg teilte. Das föderierte Modell erreichte eine Gesamtgenauigkeit von etwa 94 %, was einem Leistungsunterschied von 2 % im Vergleich zum zentralisierten Ansatz entspricht, wie in Tabelle 4 gezeigt. Dieser marginale Rückgang wird aufgrund dezentraler Optimierung und heterogener Datenverteilung über die Kunden hinweg erwartet.

Obwohl diese kleine Änderung stattfand, schnitt das föderierte Modell weiterhin gut bei der Vorhersage ab. Im zentralisierten Training zeigt das klassenspezifische Verhalten, dass die Mehrheit der Klassen, wie Nevus (nv) (F1-Score = 1,00), stabil bleibt, während Minderheitenklassen wie Dermatofibrom (df) (F1-Wert ≈ 0,65–0,66) empfindlicher gegenüber Verteilungsungleichgewichten sind, was die föderierte Leistung noch stärker beeinflussen könnte. Bemerkenswert ist, dass die föderierte Struktur die Wahrscheinlichkeit minimiert, sensible Patientendaten offenzulegen, da sie nicht den Austausch von medizinischen Rohdaten zwischen den Klienten erfordert.

figure-protocol-11
Abbildung 6: Vergleich föderiertes Lernen vs. zentralisiertes Lernen. Diese Abbildung vergleicht Lernparadigmen anhand von Leistungskennzahlen wie Genauigkeit, Präzision, Abruf und F1-Score. Dies demonstriert die Fähigkeit föderiertes Lernens, eine Leistung zu erzielen, die mit dem traditionellen Lernansatz vergleichbar ist, während gleichzeitig die Privatsphäre gewahrt wird. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Die Ergebnisse aus Tabelle 4 zeigen, dass das föderierte Lernmodell wettbewerbsfähig sein kann, und der Rückgang der Genauigkeit beträgt im Vergleich zum zentralisierten Modell nur geringfügig etwa 2 %. Diese leichte Reduktion lässt sich durch die dezentrale Optimierung und die Nicht-IID-Datenverteilung erklären. Das föderierte Modell hat jedoch einen enormen Vorteil im Hinblick auf Datenschutz, da die sensiblen Patientendaten nicht unter den Kunden geteilt werden. Um einen fairen Vergleich des föderierten Modells und des zentralisierten gestapelten Ensemble-Modells zu ermöglichen, wurde das föderierte Modell mit derselben Architektur und den gleichen Hyperparametern getestet. Der in dieser Studie diskutierte Datenschutzaspekt ist konzeptionell und soll die potenzielle Integration von Techniken wie federiertem Lernen in zukünftige Arbeiten hervorheben. In der aktuellen Implementierung wird keine experimentelle Validierung datenschutzfähiger Mechanismen durchgeführt.

Multimodale Merkmalsfusion

Die Diagnose von Hautläsionen umfasst in der Regel die Hautbeobachtung und die klinische Vorgeschichte. Dermatologen berücksichtigen in den meisten Fällen nicht nur dermoskopische Bilder, indem sie sie in Bezug auf Patienteninformationen (Alter, Geschlecht und Ort der Läsion) platzieren, um ihre diagnostischen Einschätzungen zu treffen. Das vorgeschlagene System basiert auf der Inspiration dieses klinischen Arbeitsablaufs und integriert einen multimodalen Ansatz zum Lernen, um bildbasierte und klinische Daten zu kombinieren. CNNs werden auf bereits vorhandenen dermoskopischen Bildtiefenmerkmalen trainiert. Solche Netzwerke erkennen komplexe visuelle Designs, darunter Farbveränderungen, Läsionsformen, strukturelle Anomalien und Texturmerkmale. Dennoch reichen die Merkmale der Bilder möglicherweise nicht aus, um den klinischen Zustand einer Läsion zu erfassen. Klinische Metadaten zu jedem Bild werden somit ebenfalls in das Lernen einbezogen. Ein Feature-Fusion-Modul wird erstellt, das Deep-Image-Features mit verarbeiteten klinischen Attributen und demografischen Informationen integriert. Diese zusammengesetzte Darstellung bildet eine integrierte multimodale Merkmalsrepräsentation, die sowohl visuelle als auch kontextuelle Informationen jeder Läsion umfasst. Das Modell kann mehrere Datenquellen integrieren, um komplementäre Muster zu erhalten, die die Gesamtklassifikationsfähigkeit verbessern. Die multimodale Repräsentation ermöglicht es dem System, zwischen visuell ähnlichen Läsionen effektiver zu unterscheiden und die klinischen Indikatoren einzubeziehen. Das Modell ist klinisch sinnvoller und effektiver, da es eine nähere Annäherung daran bietet, wie Dermatologen Läsionen in der klinischen Praxis untersuchen.

Gestapeltes Ensemble-Lernen
Das vorgeschlagene Framework verwendet eine gestapelte Ensemble-Lernstrategie, um die Prädiktionsfähigkeit des Systems weiter zu verbessern. Ensemble-Lernen ist eine zusammengesetzte Vorhersagemethode, die zwei oder mehr prädiktive Modelle verwendet, um die Verallgemeinerung zu verbessern und die Vorhersagefehler, die bei einzelnen Modellen auftreten können, zu minimieren. Mehrfach-Basis-Lernende werden unabhängig in der multimodalen Merkmalsrepräsentation trainiert, anstatt einen einzelnen Klassifikator zu verwenden. Alle Basislernenden geben eine Schätzung an, wie wahrscheinlich es ist, dass eine bestimmte Stichprobe zu einer bestimmten Läsionsklasse gehört. Diese Wahrscheinlichkeitsvorhersagen werden dann auf Meta-Ebene aggregiert. Jedem Basislernenden wird ein Gewicht zugewiesen, um seine relative Bedeutung für die Endprognose zu zeigen. Eine Softmax-Aktivierungsfunktion wird verwendet, um die aggregierten Ausgaben zu berechnen und so normalisierte Klassenwahrscheinlichkeiten zu erzeugen. Die Stacked-Ensemble-Methode hat eine Reihe von Vorteilen. Erstens minimiert sie die Vorhersagevarianz durch die Kombination verschiedener Modelle und verbessert somit die Leistung der Verallgemeinerung. Zweitens erhöht es die Stärke, da verschiedene Modelle unterschiedliche Trends in den Daten beschreiben. Drittens verbessert Ensemble-Lernen die Klassifikation von Minderheitenläsionsklassen, insbesondere in medizinischen Daten, wo bestimmte klinische Erkrankungen von Interesse nicht so häufig vorkommen.

Erklärbare Integration von künstlicher Intelligenz

Medizinische KI-Systeme sollten auch klare Erklärungen zu ihren Entscheidungen liefern, auch wenn eine hohe Vorhersagegenauigkeit entscheidend ist. Um KI-Systemen zu vertrauen und in ihrer Praxis effektiv zu sein, sollten Kliniker nachvollziehen können, wie ein Modell zu der von ihm erzeugten Diagnose passt. Um diesem Bedarf gerecht zu werden, integriert der vorgeschlagene Rahmen erklärbare Methoden der künstlichen Intelligenz (XAI), wie in Abbildung 7 dargestellt.

figure-protocol-12
Abbildung 7: Verwirrungsmatrizen verschiedener Klassifikationsmodelle für die Klassifikation mehrerer Hautläsionen. (A) XGBoost, (B) LightGBM, (C) Deep Neural Classifier und (D) Stacked Ensemble Model. Jede Verwirrungsmatrix zeigt die Beziehung zwischen der wahren Klasse (Reihen) und der vorhergesagten Klasse (Spalten) für alle sieben Hautläsionen: akiec, bcc, bkl, df, mel, nv und vasc. Die XGBoost- und LightGBM-Modelle schneiden für die NV- und BKL-Klassen gut ab, obwohl es einige Verwirrungen zwischen Mel und NV gibt. Der Deep Neural Classifier verbessert die Klassifikation von bkl und df und verringert die Verwirrung außerhalb der Diagonalen. Das Stacked Ensemble-Modell zeigt die größte Klassifikationskonsistenz, wobei die Diagonale zunehmend dominant wird. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Das System umfasst zwei beliebte Erklärungsansätze (Modellinterpretierbarkeitstechnik (SHapley Additive Explanations) und Modellinterpretierbarkeitstechnik (Local Interpretable Model-agnostic Explanations)), um Einblicke in die Vorhersagen des Modells zu geben. Die Modellinterpretierbarkeitsmethode erklärt Merkmale auf Ebene der Merkmale, indem sie misst, inwieweit jedes Eingabemerkmal zur Gesamtprognose beigetragen hat. Es hilft dabei zu bestimmen, welche klinischen Variablen bzw. visuellen Qualitäten den größten Einfluss auf das Ergebnis der Klassifikation haben. Dies ermöglicht es Forschern und Klinikern, das Gesamtverhalten des Modells im gesamten Datensatz zu erkennen. Die Modellinterpretierbarkeitstechnik hingegen befasst sich mit lokalen Erklärungen individueller Vorhersagen. Es betont die Bereiche des dermoskopischen Bildes, die den größten Einfluss auf die Entscheidung des Modells haben. Diese visuellen Erklärungen auf Pixelebene ermöglichen es Klinikern, die Bereiche der Läsion, die die Klassifikation beeinflusst haben, visuell zu inspizieren. Der vorgeschlagene Rahmen bietet globale und lokale Interpretierbarkeit; Dies wird durch Integration der Modellinterpretierbarkeitstechnik erreicht. Der Dual-Erklärungsmechanismus erhöht die Transparenz und ermöglicht es Klinikern zu beurteilen, ob das Modell medizinisch signifikante Muster anspricht.

Potenzial für klinische Entscheidungsunterstützung

Datenschutzsicherndes Lernen, multimodale Merkmalsfusion, Ensemble-Modellierung und erklärbare KI sind Schlüsselkomponenten eines integrierten und robusten Systems zur automatischen Klassifikation von Hautläsionen. Idealerweise sollte das System nicht nur eine hohe prognostische Leistungsfähigkeit besitzen, sondern auch transparent und sicher sein, was zwei Schlüsselfaktoren in medizinischen Systemen sind, wie in Abbildung 8 gezeigt.

figure-protocol-13
Abbildung 8: Receiver operating characteristic (ROC)-Kurven für das gestapelte Ensemble-Modell. (A–C) Dies zeigt die ROC-Kurven für die sieben Hautläsionstypen, mit echter positiver Rate (Sensitivität) und falsch-positiver Rate (1-Spezifität). Die Fläche unter der Kurve (AUC) stellt die Leistung des gestapelten Ensemblemodells bei der Unterscheidung zwischen den Klassen dar. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Dieses System bietet erklärbare Vorhersagen und Datenschutz. Daher ist es ein nützliches System für andere dermatologische Diagnostiksysteme. Dieses System ermöglicht es Gesundheitsfachkräften/Dermatologen, den Verdacht auf Läsionen zu beurteilen, die Diagnosegenauigkeit zu verbessern und dadurch Praktikern und Dermatologen zu helfen, Patienten frühzeitig zu diagnostizieren, wenn sie eine schwerwiegendere Erkrankung (z. B. Melanom) haben. Im Wesentlichen zielt dieses System, wie in Abbildung 9 gezeigt, darauf ab, die Technologien der Nutzung von Hightech-KI-Systemen (KI) und der Implementierung realer Anwendungen in die Praxis umzusetzen, um Dermatologen zu helfen, Patienten genauer und mit mehr Vertrauen zu diagnostizieren und gleichzeitig die Privatsphäre und Sicherheit der Patienten sowie deren Komfort zu gewährleisten.

figure-protocol-14
Abbildung 9: Erklärbarkeitsergebnisse mit Modellinterpretierbarkeitstechniken zur Klassifikation von Hautläsionen in mehreren Klassen. (A) SHAP-Diagramm, das Merkmalebeiträge zeigt, die gutartige und bösartige Läsionen beeinflussen. (B) LIME-Erklärung für die BCC-Vorhersage, die die Merkmale veranschaulicht, die positiv und negativ zum Klassifikationsergebnis beitragen. (C) LIME-Erklärung für die akiec-Vorhersage, die die einflussreichsten Merkmale des Modellentscheidungsprozesses hervorhebt. Diese interpretierbaren Visualisierungen zeigen die Regionen und extrahierten Merkmale, die die Vorhersagen des Modells maßgeblich beeinflussen, und verbessern so die Transparenz und das Verständnis des Klassifikationsprozesses bei der Hautläsionsbewertung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Bewertungsstrategie

Um Stichprobenverzerrungen zu vermeiden und die ursprüngliche Klassenverteilung über alle Hautläsionskategorien zu erhalten, wurde der Datensatz in eine 80:20-Zug-Test-Aufteilung aufgeteilt. Die Trainingsteilmenge wurde dann im Verhältnis 90:10 train: validate, um die Hyperparameter abzustimmen und das Modell zu optimieren. Der Testsatz wurde in keiner Phase im Trainingsprozess verwendet und nur am Ende des Trainings als Abschlusstest angewendet, um Datenverluste zu vermeiden und eine unvoreingenommene Leistungsbewertung sicherzustellen. Alle Modelle wurden in gleichen Umgebungen vorbearbeitet und trainiert, die Daten wurden auf die gleiche Weise aufgeteilt und erweitert, und Evaluierungsprotokolle wurden auf dieselbe Weise angewendet und befolgt, was faire und reproduzierbare Vergleiche ermöglichte. Die Modelle wurden gründlich anhand von Genauigkeit, Präzision, Rückruf, F1-Wert und AUC bewertet, mit einer detaillierten Analyse der klassenspezifischen Ergebnisse, um ihre Robustheit sowohl für Haupt- als auch für Minderheitenklassen von Läsionen zu bestimmen. Dieses standardisierte Validierungsinstrument würde dazu beitragen, die Zuverlässigkeit, Transparenz und Generalisierbarkeit des vorgeschlagenen Ansatzes zu erhöhen und potenzielle Inkonsistenzen in der Leistungsberichterstattung zu überwinden.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Vier Klassifikationsmethoden (XGBoost, LightGBM, ein Deep Neural Classifier und ein gestapeltes Ensemble-Modell) wurden für die Klassifikation von Hautläsionen in mehreren Klassen evaluiert. Die Modelle erreichten Gesamtgenauigkeiten von 92 %, 90 %, 94 % und 96 %, was zeigt, dass c

Klassenweise Leistung

Eine detaillierte klassenspezifische Bewertung, einschließlich Präzision, Rückruf und F1-Score für jede Läsionskategorie, wird bereitgestellt. Für die akiec-Klasse (Unterstützung = 65) erreichte das gestapelte Ensemble eine Genauigkeit von 0,72, einen Rückruf von 0,73 und einen F1-Wert von 0,72, was sich leicht verbesserte gegenüber XGBoost (F1 = 0,70), LightGBM (F1 = 0,68) und dem tiefen neuronalen Klassifikator (F1 = 0,71). Für bcc (Unterstützung = 103) erhielt das gestackte Ensemble Präzision = 0,87, Recall = 0,84 und F1-Wert = 0,85, vergleichbar mit XGBoost (F1 = 0,83) und LightGBM (F1 = 0,81), und etwas höher als der tiefe neuronale Klassifikator (F1 = 0,84). Für bkl (Unterstützung = 220) erreichte das gestapelte Ensemble Präzision = 0,93, Recall = 0,85 und F1-Score = 0,89, was XGBoost (F1 = 0,87), LightGBM (F1 = 0,86) und den tiefen neuronalen Klassifikator (F1 = 0,88) übertraf. Für df (Unterstützung = 23) blieb die Leistung über alle Modelle hinweg relativ niedrig. Das gestapelte Ensemble berichtete mit Präzision = 0,67, Recall = 0,66 und F1-Score = 0,66, ähnlich wie XGBoost (F1 = 0,65), LightGBM (F1 = 0,63) und dem tiefen neuronalen Klassifikator (F1 = 0,65).

Für mel (Unterstützung = 223) erreichte das gestapelte Ensemble Präzision = 0,66, Rückruf = 0,97 und F1-Wert = 0,78. Der Deep Neural Classifier zeigt ebenfalls einen hohen Rückruf (0,96) für Melanom, aber eine relativ geringere Präzision (~0,66), was auf eine höhere Anzahl von Fehlalarmen hinweist. Dies unterstreicht, dass die Empfindlichkeit für Melanomerkennung zwar modellübergreifend hoch ist, die Präzision jedoch vergleichsweise niedriger bleibt. Für die nv-Klasse (Unterstützung = 1341) zeigten alle Modelle eine 100%ige Klassifikationsleistung, mit Präzision, Rückruf und F1-Werten von 1,00, was die konstant hohe Leistung der Mehrheitsklasse unterstreicht. Für Vasc (Unterstützung = 28) erreichte das gestapelte Ensemble Präzision = 1,00, Recall = 0,93 und F1-Score = 0,96, vergleichbar mit dem tiefen neuronalen Klassifikator (F1 = 0,96) und etwas höher als XGBoost (F1 = 0,95) und LightGBM (F1 = 0,94).

Modellvergleich

Das gestapelte Ensemble-Modell schnitt auf allen Metriken ähnlich oder besser ab als einzelne Modelle. Wichtig ist, dass sich der Anstieg der Melanomerkennung in einem höheren Rückruf (0,97) widerspiegelt, was auf eine Verbesserung der Sensitivität des Modells gegenüber wichtigen Fällen hindeutet. Die verringerte Leistung der Minderheitenklassen (df, 23 Stichproben; akiec, 65 Stichproben) weist auf den Einfluss der Klassenverteilung auf die Modellleistung hin. Entscheidend ist, dass die Gesamtgenauigkeit über alle Stichproben hinweg berechnet wird und von Klassenungleichgewichten beeinflusst wird, wobei die nv-Klasse (Unterstützung = 1341) dominiert. Daher erklären Schwankungen in Genauigkeit oder Abruf für Minderheitenklassen nicht die angegebenen Genauigkeitswerte.

Vergleich mit bestehenden Methoden

Um die Leistung des vorgeschlagenen Systems zu vergleichen, präsentieren wir einen Vergleich mit früheren Methoden in Tabelle 5 und Tabelle 6. Das vorgeschlagene Stacked-Ensemble-Framework schneidet mit einer Genauigkeit von 96 % auf einer Stufe mit zuvor berichteten Ansätzen ab. Darüber hinaus bietet das vorgeschlagene Modell auch multimodale Feature-Integration und Erklärbarkeit, die in anderen Ansätzen nicht immer berücksichtigt werden. Die berichteten Leistungswerte basieren auf den Ergebnissen der Originalarbeiten und können sich aufgrund unterschiedlicher Datensatzaufteilungen und Bewertungsmethoden unterscheiden.

Wichtige Beobachtung

Die 94 % sind die Gesamtleistung aller Klassen und werden von der Mehrheitsklasse beeinflusst (nv, Unterstützung = 1341). Daher bedeutet die Leistung der Minderheitenklassen (z. B. df, mel-Präzision) nicht, dass dies mit der berichteten Gesamtgenauigkeit unvereinbar ist. Das gestackte Ensemble erreichte die höchste Genauigkeit (96 %) mit guten Leistungen der Klassen. Die Zunahme der Genauigkeit der verschiedenen Klassen (z. B. Rückruf von Melanomen) deutet zudem darauf hin, dass der Einsatz von Multi-Modellierungsmethoden die Prädiktionsleistung bei der Klassifikation von Hautläsionen mit mehreren Klassen verbessert.

Dies wird weiter getestet, indem der vorgeschlagene Ansatz mit den aktuellen Modellen im ISIC-Datensatz 2019 verglichen wird. Die Analyse der Leistung der weit verbreiteten Deep-Learning-Architekturen wie ResNet50, EfficientNet-B0, DenseNet121 und der vorgeschlagenen Stacked-Ensemble-Methode wurde mit den Basismodellen durchgeführt. Jedes Modell wurde unter denselben experimentellen Bedingungen getestet, wodurch sie miteinander vergleichbar waren. Die in Tabelle 6 gezeigten Ergebnisse zeigen, dass das vorgeschlagene Modell bei allen Bewertungsmetriken besser abschneidet als die bestehenden Modelle. Das vorgeschlagene gestapelte Ensemblemodell erreicht eine höhere Genauigkeit von 96 % und einen AUC-Wert von 0,970 im Vergleich zu den anderen traditionellen Machine-Learning- und Deep-Learning-Modellen, wie in Tabelle 6 zu sehen. Was die Erfassung verschiedener Feature-Darstellungen betrifft, zeigen Modelle wie EfficientNet-B0 und DenseNet121 eine starke Basisleistung bei einem Bild, sind jedoch unzureichend, um solche Aufgaben eigenständig zu bewältigen. Andererseits wird die Ensemble-Methode erfolgreich angewandt, um mehrere Modelle zu kombinieren und eine bessere Verallgemeinerung und Robustheit zu gewährleisten. Darüber hinaus ist die vorgeschlagene Methode in Bezug auf Präzision, Rückruf und F1-Wert durchweg besser, was darauf hindeutet, dass sie in verschiedenen Klassen robust ist und eine vielversprechende Fähigkeit für die praktische klinische Anwendung bietet. Um Reproduzierbarkeit, Transparenz und einen zuverlässigen Vergleich aller Modelle zu ermöglichen, wurden die Experimente nach einem Standardprotokoll mit verschiedenen Leistungskriterien und denselben Validierungsbedingungen durchgeführt.

DATENVERFÜGBARKEIT:

Der in dieser Studie verwendete Datensatz für HAM10000 Hautläsion ist öffentlich über Kaggle bei https://www.kaggle.com/datasets/kmader/skin-cancer-mnist-ham10000 verfügbar. Der Quellcode und die Implementierungsdateien, die für die Datenvorverarbeitung, Modelltraining, Bewertung und Analyse verwendet werden, wurden als ergänzendes Material zusammen mit der Manuskripteinreichung bereitgestellt.

UMGEBUNGSAUFBAU FÜR MODELLENTWICKLUNG
KomponenteSpezifikation
RechenumgebungGoogle Colab (Kostenlose Schicht)
CPU2-Kern-CPU @ 2,20 GHz
GPUNVIDIA T4 / P100
RAM12 GB
BetriebssystemUbuntu 22.04
Python-VersionPython 3.10
Deep-Learning-ModelleEfficientNet B4, DenseNet201, MobileNetV2
KlassifikatorenXGBoost, LightGBM, DNC, Stacked Ensemble
KernbibliothekenTensorFlow 2.12, Keras 2.12, NumPy, Pandas
ErklärbarkeitswerkzeugeSHAP, LIME
DatenbalancierungSMOTE

Tabelle 1: Systemkonfiguration. Es wird für die Entwicklung und Bewertung von Modellen verwendet. Sie enthält Details zur Hardware- und Softwareumgebung, wie Prozessortyp, Speicher, Betriebssystem und Software-Frameworks.

DETAILLIERTE KLASSIFIKATIONSBERICHTE ZUR VORHERSAGE VON MEHRFACHEN HAUTLÄSIONEN
BaureihePräzisionRückrufF1-ErgebnisUnterstützung
XGBoost (Genauigkeit: 92 %)
AKICEC0.700.710.7065
bcc0.850.820.83103
bkl0.910.830.87220
DF0.650.650.6523
mel0.630.950.76223
NV1.001.001.001341
VASC1.000.910.9528
LightGBM (Genauigkeit: 90 %)
AKICEC0.680.690.6865
bcc0.830.800.81103
bkl0.900.820.86220
DF0.630.630.6323
mel0.620.940.75223
NV1.001.001.001341
VASC0.990.900.9428
Tiefer neuronaler Klassifikator (Genauigkeit: 94 %)
AKICEC0.950.90.9265
bcc0.90.940.92103
bkl0.970.920.94220
DF0.990.960.9723
mel0.990.90.94223
NV0.140.860.241341
VASC0.100.860.1828
Gestapeltes Ensemble (Genauigkeit: 96 %)
AKICEC0.720.730.7265
bcc0.870.840.85103
bkl0.930.850.89220
DF0.670.660.6623
mel0.660.970.78223
NV1.001.001.001341
VASC1.000.930.9628

Tabelle 2: Detaillierte Leistungskennzahlen zur Vorhersage von Hautläsionen bei mehreren Klassen in allen Modellen. Diese Tabelle zeigt klassenweise Präzision, Rückruf, F1-Wert und Unterstützung für jede Hautläsionskategorie.

ModellHyperparameterWert
XGBoostLernrateStandard (0,3)
Anzahl der Bäume (n_estimators)100
Maximale Tiefe6
Teilstichprobe1
Colsample_bytree1
ZielMulti:Softmax
Evaluationsmetrikmlogloss
LightGBMLernrateStandard (0.1)
Anzahl der Bäume (n_estimators)100
Maximale Tiefe-1
Anzahl der Blätter31
Merkmalsfraktion1
Bagging-Fraktion1
ZielMultiklasse
Metrikmulti_logloss
Tiefenneuronaler KlassifikatorAnzahl der Schichten3 dichte Schichten
Neuronen pro Schicht256, 128, 64
AktivierungsfunktionReLU
AusgangsaktivierungSoftmax
OptimiererAdam
Lernrate0.001
Chargengröße32
Anzahl der Epochen30
Schulabbrecher0.5
VerlustfunktionKategorische Kreuzentropie

Tabelle 3: Hyperparameter-Einstellungen. Hyperparameter-Einstellungen, die zum Training der Modelle verwendet werden, einschließlich Lernrate, Batch-Größe, Anzahl der Epochen und Optimierer-Konfigurationen.

Zentralisiertes vs. föderiertes Modell
AusbildungsstrategieZentralisiert (gestapeltes Ensemble)Föderiertes ModellUnterschied (Δ)
Genauigkeit (%)96942

Tabelle 4: Vergleich von zentralisiertem vs. föderiertem Lernen. Vergleich zwischen zentralisierten und föderierten Lernansätzen hinsichtlich Leistung, Privatsphäre und rechnerischen Eigenschaften.

ReferenzpapierMethodeModelltypJahrBerichtete LeistungWichtiger Beitrag
[2]CNN-Rahmenwerk zur HautkrebserkennungCNN2020Hohe Genauigkeit (~90%+)Frühe CNN-basierte Klassifikation
[4]Melanomdiagnose mittels Deep LearningCNN2021Verbesserte WertungsleistungDermoskopische Bildanalyse
[8]Optimiertes CNN mit KontrollpunktenCNN2023Verbesserte Genauigkeit (~92–94 %)Modelloptimierungsstrategie
[9]Deep Learning + XAI-FrameworkCNN + Erklärbarkeit2023Verbesserte InterpretierbarkeitXAI-Integration
[10]Kombinierte CNN-FeaturesCNN2023Wettbewerbsleistung (~90%+)Funktionskombination
[18]SkinSage XAICNN + XAI2023Verbessertes Vertrauen und InterpretierbarkeitErklärbares KI-System
Dieses WerkGestapeltes Ensemble + Multimodal + XAIEnsemble96%Ensemble + Interpretierbarkeit + Datenschutzbewusstsein

Tabelle 5: Vergleich mit bestehenden Methoden. Leistungsvergleich der vorgeschlagenen Methode mit bestehenden modernen Methoden unter Verwendung von Standardbewertungsmetriken.

Modernste Modelle
ModellDatensatzGenauigkeitPräzisionRückrufF1-ScoreAUC
ResNet50ISIC 20190.8420.8350.8280.8310.912
EfficientNet-B0ISIC 20190.8740.8680.8610.8640.935
DenseNet121ISIC 20190.8610.8540.8480.8510.926
XGBoostISIC 20190.920.9050.8920.8980.948
LightGBMISIC 20190.90.8890.880.8840.94
Tiefenneuronaler KlassifikatorISIC 20190.940.9050.890.8920.95
Vorgeschlagenes gestapeltes EnsembleISIC 20190.960.940.930.9350.97

Tabelle 6: Vergleich mit modernsten Modellen. Vergleichende Bewertung des gestapelten Ensemble-Modells mit anderen modernen Architekturen im ISIC-2019-Datensatz. Genauigkeit, Präzision, Rückruf, F1-Score und AUC werden verwendet, um die Leistung zu messen. Das vorgeschlagene Modell übertrifft andere Modelle und zeigt damit seine Wirksamkeit bei der Klassifikation von Hautläsionen in mehreren Klassen.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Das aktuelle Protokoll beschreibt eine reproduzierbare Pipeline zur Erstellung eines interpretierbaren, datenschutzsensiblen, multimodalen Rahmens zur automatischen Klassifizierung von Hautläsionen. Das Protokoll folgt einem systematischen Muster der Steigerung der diagnostischen Leistung durch Modelltransparenz, wobei dermoskopische Bildanalyse mit klinischen Metadaten und interpretierbaren Methoden des maschinellen Lernens kombiniert wird. Der Datensatz HAM10000 Hautläsion ist öffentlich zugänglich, ermöglicht eine standardisierte Bewertung und erleichtert die Reproduzierbarkeit weiterer Forschung im Bereich der dermatologischen Bildforschung16. Der Bildvorverarbeitungs- und Normalisierungsschritt ist einer der wichtigsten Schritte im Protokoll, da er garantiert, dass dermoskopische Bilder vor der Extraktion der Merkmale und dem Training eines Modells standardisiert werden. Artefakte, die in dermoskopischen Bildern vorhanden sein können, umfassen ungleichmäßige Beleuchtung, Haarabdeckung oder Rauschen im Hintergrund, was die Leistung der Modelle beeinflussen kann. Die Größenanpassung der Bilder auf eine feste Auflösung und Normalisierung kann diese Unterschiede verringern, und das Modell kann dann auf klinische Läsionen wie Pigmentierungsmuster, unregelmäßige Ränder und Asymmetrie fokussiert werden. Dermatologiesysteme auf Basis von Deep-Learning-Systemen benötigen eine ordnungsgemäße Vorverarbeitung, um eine zuverlässige Leistung zu erzielen, wie frühere Forschungen zur automatisierten Hautkrebsklassifikation 2 gezeigt haben.

Der Deep Feature Extraction Workflow, der auf mehreren Convolutional Neural Network (CNN)-Architekturen basiert, ist ebenfalls ein wichtiger Teil dieses Prozesses. Bei diesem Verfahren werden EfficientNet-B4, DenseNet201 und MobileNetV2 eingesetzt, um komplementäre Merkmale in dermoskopischen Bildern zu erlernen. Diese Architekturen haben unterschiedliche Vorteile hinsichtlich Funktionen und Rechenkosten. Das vorgeschlagene Protokoll kann Merkmale mit mehreren Modellen extrahieren und diese dann fusionieren, um globale Läsionsmuster sowie spezifische Merkmale von Läsionenmorphologien zu erhalten, die bei der Identifizierung gutartiger und bösartiger Läsionen hilfreich sein können. Es gibt außerdem eine multimodale Funktionsfusionsphase. Die klinische Diagnose in der Dermatologie umfasst oft visuelle und kontextuelle klinische Informationen (Alter und Geschlecht des Patienten sowie Stelle der Läsion). Die Architektur verbindet dermoskopische Bildmerkmale mit kontextuellen Informationen, um den rein bildbasierten Modellen einen diagnostischen Kontext hinzuzufügen. Es ist ein praktischerer multimodaler Ansatz und verbessert das Klassifikationssystem.

Das Protokoll integriert außerdem erklärbare Techniken der künstlichen Intelligenz (XAI), insbesondere die Modellinterpretierbarkeitstechnik, um Vorhersagen der Klassifikationsmodelle zu erklären. Erklärbarkeit ist für medizinische KI-Systeme unerlässlich, da Kliniker sich der Begründung hinter automatisierten Vorhersagen bewusst sein müssen, um sie in ihre Diagnoseprozesse einzubeziehen. Modellinterpretierbarkeitstechniken erzielen globale Merkmalsbedeutung, indem sie den Einfluss jedes Merkmals auf die Vorhersagen des Modells messen, während Modellinterpretierbarkeitstechniken lokale Erklärungen liefern, indem sie die Bildregionen zeigen, die zu den Vorhersagen des Modells beitragen. Diese Interpretierbarkeitswerkzeuge helfen zu überprüfen, dass das Modell sich auf klinisch relevante Strukturen und nicht auf falsche Korrelationen konzentriert, wodurch das Vertrauen und die Transparenz in KI-unterstützten Diagnosesystemen verbessertwerden.

Es gibt eine Reihe von Varianten des Protokolls, die je nach verwendetem Datensatz oder Rechenumgebung angewendet werden können. Ein typisches Problem dermatologischer Daten ist ein Klassenungleichgewicht, bei dem die Anzahl der Proben pro Läsionskategorie erheblich variiert. Der HAM10000-Datensatz weist einen deutlich höheren Anteil gutartiger Nevi auf als andere Läsionskategorien. Dieses Ungleichgewicht könnte durch Überstichprobentechniken wie die Synthetic Minority Oversampling Technique (SMOTE) ausgeglichen werden, die synthetische Minderheitendaten für seltene Läsionskategorien generieren kann. Andere Strategien wie Datenaugmentation, Klassengewichtung oder fokaler Verlust können ebenfalls dazu beitragen, die Modellgenauigkeit bei weniger häufigen Läsionen zu verbessern.

Obwohl der vorgeschlagene Rahmen verschiedene Vorteile bietet, hat er einige Einschränkungen. Das Modell wird auf dem HAM10000-Datensatz trainiert, der möglicherweise nicht alle möglichen Bildgebenden, Hautphänotypen oder ethnische Gruppen in der Dermatologie abdeckt. Daher ist es wichtig, das Framework mit externen Datensätzen zu validieren, um seine Verallgemeinerungsleistung zu bewerten. Darüber hinaus erhöht die Einbindung mehrerer Deep-Learning-Modelle und Ensemblelernen den rechnerischen Fußabdruck des Modells und kann in ressourcenbegrenzten klinischen Umgebungen eine Herausforderung darstellen.

Das Framework, wie vorgestellt, bietet mehrere Fortschritte gegenüber herkömmlichen Deep-Learning-Methoden, die ausschließlich Bilder verwenden. Multimodale Datenintegration liefert reichhaltigere Informationen, und Ensemble-Lernen erhöht die Robustheit des Modells, indem Vorhersagen aus verschiedenen Klassifikatoren aggregiert werden. Darüber hinaus bietet der Einsatz erklärbarer KI-Techniken die Interpretierbarkeit der Entscheidungsfindung, was für Deep-Learning-Modelle im medizinischen Bereich ein Thema ist. Erkenntnisse aus experimentellen dermatologischen Techniken informieren dieses Protokoll, indem sie reproduzierbare Bild- und Analyse-Workflows betonen, die für die biologische Forschung unerlässlich sind. Fortschrittliche bildgebende Ansätze, darunter dreidimensionale Hautmodelle und dermoskopische Bildgebungsverfahren, bieten ein tieferes Verständnis der Hautstruktur und der Krankheitsmechanismen und unterstützen so die Entwicklung und Verbesserung computergestützter Diagnosetools21,22.

Der in diesem Protokoll beschriebene Ansatz kann auf verschiedene Weise in dermatologischer Forschung und klinischen Einrichtungen angewendet werden. Dieser Ansatz könnte helfen, computergestützte Diagnosesysteme für die frühe Erkennung von Melanomen und anderen Hauterkrankungen zu entwickeln, Ärzten helfen, sich durch große Datenbanken mit Hautbildern zu navigieren, und als Teil von Teledermatologiesystemen genutzt werden, sodass Ärzte Dermatologen aus der Ferne konsultieren können. Darüber hinaus ermöglichen die Erklärbarkeit und die datenschutzschützenden Funktionen des Systems den Einsatz in einer multiinstitutionellen medizinischen KI-Forschungsumgebung, in der mehrere Institutionen Daten teilen und gleichzeitig den Datenschutz gewährleisten. Zukünftige Forschungen könnten die Integration größerer, multiinstitutioneller Datensätze, das Hinzufügen zusätzlicher klinischer Funktionen und die Erforschung anderer datenschutzschützender Techniken wie federiertes Lernen umfassen, das hier als konzeptionelle Erweiterung erwähnt wird. Außerdem ist das Fehlen einer Ablationsstudie, die multimodale Modelle mit reinen und metadatenbasierten Modellen vergleicht, eine Einschränkung und wird in zukünftigen Arbeiten zur Bewertung der Rolle jeder Datenquelle behandelt.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren haben nichts offenzulegen. Wir haben keine Interessenkonflikte. Die Autoren behaupten, dass künstliche Intelligenz ausschließlich für die Sprachbearbeitung und Formatierung verwendet wurde. Alle wissenschaftlichen Inhalte, Analysen und Interpretationen wurden von den Autoren entwickelt und überprüft.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren danken der MVN University, Palwal, für die akademische Beratung und Forschungsunterstützung. Die Autoren erkennen auch den öffentlich verfügbaren Datensatz HAM10000 Hautläsion an, der für die experimentelle Bewertung dieser Studie verwendet wurde.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
DenseNet201 CNN-ArchitekturIBMhttps://arxiv.org/abs/1608.06993Deep-Learning-Modell zur Bildklassifikation
EfficientNet-B4 CNN-ArchitekturGooglehttps://arxiv.org/abs/1905.11946Deep-Learning-Modell zur Bildklassifikation
Google Colaboratory PlatformGooglehttps://colab.research.google.comCloud-basierte Rechenumgebung
HAM10000 HautläsionsdatensatzHarvard Dataversehttps://doi.org/10.7910/DVN/DBW86TDermoskopischer Bilddatensatz
Keras Deep Learning APIGoogleVersion 2.xNeurale Netzwerk-API
LIME ErklärbarkeitsbibliothekLIME-ProjektVersion 0.xModellinterpretierbarkeitstechnik
MobileNetV2 CNN-ArchitekturGooglehttps://arxiv.org/abs/1801.04381Deep-Learning-Modell zur Bildklassifikation
Matplotlib VisualisierungsbibliothekMatplotlib-EntwicklungsteamVersion 3.xVerwendet zur Erstellung von Diagrammen und zur Leistungsvisualisierung
NVIDIA GPUNVIDIARTX-SerieRechenhardware für Modelltraining
NumPy Numerische RechenbibliothekNumPy-EntwicklerVersion 1.xDatenanalyse-Software
OpenCV BildverarbeitungsbibliothekOpenCV StiftungVersion 4.xBildverarbeitungsbibliothek
Pandas-DatenanalysebibliothekPandas-EntwicklungsteamVersion 1.xDatenanalyse-Software
Python-ProgrammierumgebungPython Software FoundationVersion 3.9+Datenanalyse-Software
SHAP ErklärbarkeitsbibliothekSHAP-ProjektVersion 0.xModellinterpretierbarkeitstechnik
SMOTE-Übersampling-TechnikUnausgewogenes-Lern-ProjektVersion 0.xKlassenbalancing-Technik zur Handhabung unausgewogener Datensätze
Scikit-learn Machine Learning Libraryscikit-learn ProjektVersion 1.xMaschinelle Lernbibliothek
TensorFlow Deep-Learning-FrameworkGoogleVersion 2.xDeep-Learning-Framework

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Skin Lesion ClassificationMultimodal EnsembleExplainable AIPrivacy PreservingDeep Learning ModelsClass BalancingEfficientNet B4Clinical MetadataXGBoost ClassifierModel Interpretability

Related Articles