Wyjaśnialna, chroniąca prywatność, multimodalna struktura zespołowa do klasyfikacji zmian skórnych

Amrita Koul; N. P. Singh

doi:10.3791/71472

Research Article

Wyjaśnialna, chroniąca prywatność, multimodalna struktura zespołowa do klasyfikacji zmian skórnych

DOI:

10.3791/71472

⸱

June 12th, 2026

Amrita Koul¹ , N. P. Singh¹

¹Department of Computer Science and Engineering, School of Engineering and Technology, MVN University, Palwal

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Zaproponowany projekt ma na celu opracowanie i ocenę wyjaśnialnej, chroniącej prywatność, multimodalnej kompozycji zespołowej do dokładnej klasyfikacji zmian skórnych, poprzez integrację głębokich funkcji uczenia, metadanych klinicznych oraz wyjaśnialnych technik sztucznej inteligencji, aby poprawić dokładność diagnostyczną, przejrzystość i niezawodne wsparcie decyzji klinicznych dla wczesnego wykrywania raka skóry.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wśród chorób dermatologicznych rak skóry należy do najbardziej zagrażających życiu. Wczesna i dokładna diagnoza jest ważna dla poprawy rokowania pacjenta. Niemniej jednak, tradycyjne metody diagnostyczne oparte na AI napotykają na kilka wyzwań, w tym na obawy dotyczące prywatności, ograniczoną interpretowalność oraz poważną nierównowagę klas w wieloklasztorowych zbiorach zmian skórnych. Aby przezwyciężyć te wyzwania, w proponowanym artykule zaproponowano prywatność-świadomy, wyjaśnialny multimodalny model klasyfikacji zmian skórnych, który łączy złożone modele uczenia głębokiego oraz podejście modelowania zespołowego z metodami wyjaśnialnej sztucznej inteligencji. Ocena eksperymentalna przeprowadzona jest przy użyciu publicznie dostępnych danych HAM10000 benchmark do klasyfikacji wieloklasztorowej zmian skóry, do których można uzyskać dostęp za pośrednictwem Kaggle Hub, rozłożonych na siedem klinicznie istotnych klas zmian (akiec, bcc, bkl, df, mel, nv, vasc). Aby wyrównać dane, zastosowano technikę równoważenia klas w celu zwiększenia mniejszościowych klas. EfficientNet B4, DenseNet201 i MobileNetv2 są używane do wyodrębniania głębokich reprezentacji cech, następnie łączonych z istotnymi klinicznymi metadanymi w celu stworzenia wytrzymałej multimodalnej przestrzeni cech. Te multimodalne cechy są używane do trenowania XGBoost, LightGBM, Deep Neural Classifier (DNC), które dały odpowiednio 92%, 90% z dokładnością 94%. Zastosowana jest klasyczna strategia zespołowa, aby połączyć wyniki XGBoost, LightGBM i Deep Neural Classifier (DNC), co prowadzi do poprawy dokładności o 96%. Techniki interpretacji modelu zapewniają wyjaśnienia na poziomie cech, które zwiększają przejrzystość. Wyniki eksperymentalne udowodniły przydatność sugerowanego frameworku pod względem efektywności z klinicznie istotną klasyfikacją zmian skóry w rzeczywistym życiu.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Rak skóry stanowi znaczące globalne obciążenie zdrowotne, ze wzrostem wskaźników zachorowań na całym świecie¹. Sztuczna radiacja jest uznawana za główny czynnik przyczyniający się do powstawania raka skóry, prowadząc do mutacji genetycznych, które skutkują niekontrolowanym rozmnażaniem komórek i rozwojem guzów w komórkach skóry¹^,²_.Rak skóry obejmuje grupę chorób, w tym czerniaka, raka płaskonabłonkowego i raka podstawnokomórkowego (bcc). Przyczyny, objawy kliniczne i czynniki prognostyczne tych chorób są różne³. Choroby skóry stały się przeszkodą w medycznej diagnostyce ze względu na podobieństwa na poziomie pikseli⁴. W 2022 roku na całym świecie oszacowano 331 722 przypadków czerniaka (58 667 zgonów) i 1,2 miliona przypadków NMSC (69 416 zgonów). Najwyższe wiekowo standardyzowane wskaźniki zachorowań (ASR) na czerniaka były w Oceanii (29,78/100 000), Ameryce Północnej (16,3) i Europie (10,43). Jednak wskaźnik śmiertelności do zachorowań był najwyższy w Afryce (0,35) i Azji (0,30) w porównaniu z Ameryką Północną i Oceanią (0,02 w obu), co może wskazywać na gorszy rokowanie¹. W dermatologii diagnoza i monitorowanie zmian skórnych opierają się głównie na badaniu wzrokowym i innych ocenach nieinwazyjnych. Metody inwazyjne nie są stosowane, ponieważ mogą uszkodzić zmiany i uniemożliwić przeprowadzenie klinicznego monitorowania wzrostu zmian⁵. Zmiany skóry mogą być różnego rodzaju: czerniak (MEL), dermatofibroma (DF), rogowacenie słoneczne i rak intraepitelialny (AKIEC), rak podstawnokomórkowy (BCC), łagodne rogowacenie (BKL), nevus melanocytarny (NV) i zmiany naczyniowe (VASC), zgodnie z definicją z zestawu HAM10000⁵. Głównymi wyzwaniami w klasyfikacji obrazów dermatoskopowych są obecność włosów, tuszu, znaków linijki, kolorowych plam, błyszczeń, kropel, bąbelków oleju, naczyń krwionośnych, obszarów przebarwień i/lub zmian zapalnych⁶. Wcześniej przeprowadzono badania dotyczące wyboru cech i głębokiego uczenia się dla medycznego obrazowań i klasyfikacji zmian skórnych⁷^,⁸.

Badano również podejścia oparte na komputerowej wizji do diagnozy raka skóry oraz integrację ręcznie tworzonych i głębokich cech, a także strategie fuzji cech w celu poprawy wydajności klasyfikacji⁹, ¹⁰. Ostatnie osiągnięcia zwracają szczególną uwagę na integrację uczenia maszynowego w systemach opieki zdrowotnej i bezpiecznych ramach przetwarzania danych medycznych¹¹^,¹²_.Wykorzystanie sztucznej inteligencji w opiece zdrowotnej, wspierane zaawansowanymi algorytmami obliczeniowymi, ma potencjał dostarczania spersonalizowanych i wydajnych zintegrowanych programów opieki, szczególnie korzystnych dla pacjentów w usługach zdalnej i domowej opieki¹³. Dzięki wykorzystaniu rozległych zestawów danych obrazów dermatoskopowych, modele głębokiego uczenia - szczególnie sieci konwolucyjne (CNN) - mogą być przeszkolone w celu dokładnego identyfikowania i klasyfikowania różnych zmian skórnych. Kilka technik wykazuje silne wyniki w segmentacji zmian skórnych, w tym sieci konwolucyjne typu fully (FCN), CNN, głębokie sieci konwolucyjne (DCNN), sieci konwolucyjne typu fully z resztą (FCRN) i architektury U-Net. Głębokie sieci neuronowe (DNN) nie są łatwe do interpretacji ze względu na swoją wysoce złożoną architekturę, więc ich proces decyzyjny jest trudny do zrozumienia¹⁴^,¹⁵. Ostatnie osiągnięcia w analizie medycznych obrazów wykazały, że głębokie sieci konwolucyjne (CNN) znacznie poprawiają wydajność w zadaniach klasyfikacji zmian skórnych. Kilka badań na zbiorach dermoskopowych, takich jak HAM10000, wykazało, że architektury oparte na CNN, w tym ResNet, DenseNet i EfficientNet, osiągają silną wieloklasozą wydajność klasyfikacji poprzez uczenie się hierarchicznych reprezentacji cech z obrazów zmian. Podejścia do hybrydowej fuzji cech, w których łączy się wiele podstawowych sieci CNN, dalsze poprawiły dokładność diagnostyczną poprzez integrację uzupełniających reprezentacji głębokich¹⁶. Ponadto, obecne badania dotyczą hybrydowych modeli CNN Transformer w analizie obrazów medycznych. Modele z transformatorem widzenia i ekstraktorami cech CNN wykazały lepsze wyniki w zadaniach klasyfikacji zmian skórnych, ponieważ lepiej potrafią wyodrębnić lokalne treści tekstury oraz globalne relacje kontekstowe¹⁷. Takie hybrydowe projekty są również uważane za najnowocześniejsze w obrazowaniu medycznym, ponieważ mają zrównoważoną zdolność do uczenia się reprezentacji.

W innych dziedzinach medycyny strategie fuzji cech by

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Niniejsze badanie wykorzystało publicznie dostępne, w pełni anonimizowane zestawy danych dermoskopowych i nie wymagało bezpośredniego uczestnictwa ludzi; dlatego nie była wymagana zgoda komitetu etycznego. Tabela materiałów zawiera szczegóły wszystkich materiałów lub narzędzi użytych w tym badaniu. Tabela 1 zawiera szczegóły środowiska sprzętowego i oprogramowania, takie jak typ procesora, pamięć, system operacyjny i frameworki oprogramowania. Tabela 2 zawiera szczegóły precyzji klasowej, odzysku, wskaźnika F1 i wsparcia dla każdej kategorii zmian skórnych.

Ogólny przepływ proponowanego multimodalnego układu klasyfikacji zmian skórnych

Plan badań polega na stworzeniu precyzyjnego i jasnego schematu wieloklasowej klasyfikacji zmian skórnych. Przepływ rozpoczyna się od zbierania danych i przetwarzania danych z zestawu HAM10000, a następnie przechodzi do ekstrakcji cech przy użyciu architektur uczenia głębokiego i uwzględnienia metadan klinicznych. Następnie szkolono i optymalizowano kilka klasyfikatorów uczenia maszynowego, a ich wyniki zostały zagregowane w strategii zespołowej. Na koniec interpretowane są przewidywania modelu za pomocą technik interpretowalności, a efektywność modelu jest oceniana pod kątem zastosowania w realnych systemach wspomagania decyzji klinicznych.

Aby poprawić dokładność predykcyjną zaproponowanego systemu, zastosowano multimodalny potok uczenia maszynowego, który łączy zarówno cechy oparte na obrazach, jak i metadane kliniczne (jak pokazano na Rysunek 1. Model może sumować wizualne wyniki obrazów dermoskopowych z informacjami dotyczącymi pacjenta, aby zidentyfikować bardziej szczegółowe wzorce związane z różnymi zmianami skórnymi. Dzięki takiej kombinacji system może wykonywać lepsze przewidywania, które ostatecznie poprawią jakość i przydatność klasyfikacji zmian skórnych. Trzy przedtrenowanie konwolucyjne Głębokie cechy są wyciągane za pomocą sieci neuronowych (EfficientNet-B4, DenseNet201 i MobileNetV2): są one w stanie uchwycić różne uzupełniające się wzorce obrazów dermoskopowych. Te architektury uczą się wysokopoziomowych wzorców wyglądu zmian skórnych, takich jak zmiany koloru i tekstury oraz sposób ich budowy. Następnie moduł fuzji cech łączy głębokie cechy z cechami klinicznymi i danymi demograficznymi, tworząc bogaty multimodalny zbiór cech. Połączone dane są następnie dzielone na dane treningowe, walidacyjne i testowe, aby zapewnić odpowiednie testowanie modelu. Następnie moduł fuzji cech służy do połączenia głębokich cech z cechami klinicznymi i danymi demograficznymi w celu uzyskania bogatego multimodalnego zestawu cech. Te dane są następnie dzielone na dane treningowe, testowe i walidacyjne w celu przetestowania modelu. Aby zwiększyć dokładność predykcji, zastosowano strategię zespołową. Odbywa się to poprzez uśrednienie wyników kilku modeli i opracowanie ostatecznego przewidywania na podstawie tych uśrednionych prawdopodobieństw, aby poprawić uogólnienie i zminimalizować wariancję, która inaczej zostałaby spowodowana przez pojedyncze modele. Oprócz tego, metody interpretowalności, takie jak techniki interpretowalności modelu, są również zintegrowane, aby lepiej wyjaśnić, w jaki sposób model podejmuje decyzje. Metoda interpretowalności modelu zapewnia interpretacje na poziomie cech, licząc wkład poszczególnych zmiennych wejściowych, podczas gdy metoda interpretowalności modelu identyfikuje ważne obszary na poziomie pikseli w obrazach dermoskopowych, które wpływają na przewidywania. Techniki interpretowalności modelu oferują wyjaśnienia na poziomie cech, licząc wkład każdej zmiennej wejściowej, podczas gdy techniki interpretowalności modelu podkreślają ważne regiony na poziomie pikseli w obrazach dermoskopowych, które wpływają na przewidywania. W połączeniu te techniki sprawiają, że modele są bardziej interpretowalne i pomagają klinicystom poznać sposób, w jaki system podejmuje decyzje. W rezultacie zaproponowany potok zapewnia system, który jest zrozumiały i uwzględnia prywatność, zwiększając przejrzystość i zaufanie oraz umożliwiając bardziej niezawodne rozpoznawanie raka skóry w realnym środowisku opieki zdrowotnej.

Opis zestawu danych z przygotowaniem

W niniejszej pracy jako podstawowy zestaw danych do wieloklasowej klasyfikacji zmian skórnych wykorzystano zestaw HAM10000 (Human against Machine with 10 000 training images). Zestaw zawiera ponad 10 000 dermoskopowych rysunków zebranych z różnych źródeł medycznych. Źródła kliniczne i populacje, co sprawia, że jest to jeden z najczęściej stosowanych zestawów punktów odniesienia w analizie obrazów dermatologicznych. Każdy obraz w zestawie jest dostarczany wraz z ważnymi metadanymi klinicznymi, w tym identyfikatorami obrazów, etykietami diagnostycznymi, wiekiem pacjenta, płcią i położeniem anatomicznym zmiany. Zestaw obejmuje siedem kategorii diagnostycznych: rogowacenie słoneczne (akiec), rak bazaliomioczny (bcc), dobroczynność keratozy (bkl), dermatofibrom (df), guzki melanocytarne (nv), zmiany naczyniowe (vasc) i czerniak (mel).

Przetworzenie metadan klinicznych

Dodatkowe funkcje dodane do potoku klasyfikacji obejmowały metadane kliniczne,

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cztery metody klasyfikacji (XGBoost, LightGBM, głęboka sieć neuronowa i zespolony model zespolony) zostały oceniane pod kątem klasyfikacji wieloklasztorowej zmian skórnych. Modele osiągnęły ogólne dokładności 92%, 90%, 94% i 96% odpowiednio, co pokazuje, że c

Wydajność klasowa

Przedstawiono szczegółową ocenę klasową, w tym precyzję, odzyskanie i wynik F1 dla każdej kategorii zmian. Dla klasy akiec (wsparcie = 65), zespolony model zespolony osiągnął ...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Obecny protokół opisuje reproduktyjną procedurę tworzenia interpretowalnej, prywatnej, multimodalnej ramy do automatycznej klasyfikacji zmian skóry. Protokół przebiega systematycznie poprzez poprawę wydajności diagnostycznej za pomocą przejrzystości modelu, łącząc analizę obrazu dermoskopowego z danymi klinicznymi i interpretowalnymi metodami uczenia maszynowego. Zbiór danych zmian skóry HAM10000 jest dostępny publicznie i umożliwia standaryzowaną ocenę oraz ułatwia powtarzalność dalszych badań w dziedzinie badań nad obr...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy nie mają nic do ujawnienia. Nie mamy żadnych konfliktów interesów. Autorzy deklarują, że narzędzia sztucznej inteligencji zostały wykorzystane wyłącznie do edycji językowej i formatowania. Wszystkie treści naukowe, analizy i interpretacje zostały opracowane i zweryfikowane przez autorów.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy dziękują MVN University, Palwal, za zapewnienie wsparcia akademickiego i badawczego. Autorzy również wyrażają uznanie dla publicznie dostępnego zbioru skórnych zmian HAM10000, który został wykorzystany do eksperymentalnej oceny tego badania.

Access restricted. Please log in or start a trial to view this content.

Materials

```html

List of materials used in this article
Name	Company	Catalog Number	Comments
Architektura sieci DenseNet201 CNN	IBM	https://arxiv.org/abs/1608.06993	Model głębokiego uczenia się do klasyfikacji obrazów
Architektura sieci EfficientNet-B4 CNN	Google	https://arxiv.org/abs/1905.11946	Model głębokiego uczenia się do klasyfikacji obrazów
Platforma Google Colaboratory	Google	https://colab.research.google.com	Chmurowe środowisko obliczeniowe
Zestaw danych zmian skórnych HAM10000	Harvard Dataverse	https://doi.org/10.7910/DVN/DBW86T	Zestaw obrazów dermatoskopowych
API głębokiego uczenia Keras	Google	Wersja 2.x	API sieci neuronowych
Biblioteka interpretacji modeli LIME	LIME Project	Wersja 0.x	Technika interpretacji modelu
Architektura sieci MobileNetV2 CNN	Google	https://arxiv.org/abs/1801.04381	Model głębokiego uczenia się do klasyfikacji obrazów
Biblioteka wizualizacji Matplotlib	Matplotlib Development Team	Wersja 3.x	Służy do generowania wykresów i wizualizacji wydajności
GPU NVIDIA	NVIDIA	Seria RTX	Sprzęt obliczeniowy do trenowania modelu
Biblioteka obliczeń numerycznych NumPy	NumPy Developers	Wersja 1.x	Oprogramowanie do analizy danych
Biblioteka przetwarzania obrazów OpenCV	OpenCV Foundation	Wersja 4.x	Biblioteka przetwarzania obrazów
Biblioteka analizy danych Pandas	Pandas Development Team	Wersja 1.x	Oprogramowanie do analizy danych
Środowisko programistyczne Python	Python Software Foundation	Wersja 3.9+	Oprogramowanie do analizy danych
Biblioteka interpretacji modeli SHAP	SHAP Project	Wersja 0.x	Technika interpretacji modelu
Technika przesamplowywania SMOTE	imbalanced-learn Project	Wersja 0.x	Technika wyrównywania klas do obsługi zestawów danych z nierównomiernym rozkładem
Biblioteka uczenia maszynowego Scikit-learn	scikit-learn Project	Wersja 1.x	Biblioteka uczenia maszynowego
Framework głębokiego uczenia TensorFlow	Google	Wersja 2.x	Framework głębokiego uczenia

```

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Wyjaśnialna, chroniąca prywatność, multimodalna struktura zespołowa do klasyfikacji zmian skórnych

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles