$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Badanie to wykorzystało publicznie dostępne, w pełni anonimizowane zbiory danych dermoskopowych i nie obejmowało bezpośredniego udziału człowieka; dlatego nie było wymagane zatwierdzenie przez komisję etyczną. Tabela materiałów zawiera szczegóły dotyczące wszystkich materiałów lub narzędzi używanych w tym badaniu. Tabela 1 zawiera szczegóły dotyczące środowiska sprzętowego i programowego, takie jak typ procesora, pamięć, system operacyjny oraz ramy programowe. Tabela 2 zawiera szczegóły dotyczące precyzji, przypomnienia, wyniku F1 oraz wsparcia dla każdej kategorii zmian skórnych.
Ogólny przepływ pracy proponowanego wielomodalnego systemu klasyfikacji zmian skórnych
Ogólnym celem tych badań jest stworzenie precyzyjnego i zrozumiałego schematu wieloklasyfikacji zmian skórnych. Proces rozpoczyna się od zbierania i wstępnego przetwarzania danych HAM10000 zbioru, a następnie przechodzi do ekstrakcji funkcji z wykorzystaniem architektur głębokiego uczenia oraz włączenia klinicznych metadanych. Następnie trenowanych i optymalizowanych jest kilka klasyfikatorów uczenia maszynowego, a ich wyniki agregowane są w strategii zespołowej. Na koniec przewidywania modelu są interpretowane za pomocą technik wyjaśnialności, a skuteczność modelu oceniana jest pod kątem zastosowania w rzeczywistym wsparciu decyzyjnym w stanie klinicznym.
Aby poprawić dokładność predykcyjną proponowanego systemu, stosuje się wielomodalny pipeline uczenia maszynowego, który łączy cechy oparte na obrazach oraz metadane kliniczne (jak pokazano na Rysunku 1). Model może podsumować wizualne wyniki obrazów dermoskopowych z informacjami dotyczącymi pacjenta, aby zidentyfikować bardziej szczegółowe wzorce związane z różnymi zmianami skórnymi. Dzięki takiej kombinacji system może lepiej przewidywać, co ostatecznie się stanie. Poprawa jakości i użyteczności klasyfikacji zmian skórnych. Trzy wstępnie wytrenowane konwolucyjne cechy Deep są wyodrębniane za pomocą sieci neuronowych (EfficientNet-B4, DenseNet201 i MobileNetV2): są one zdolne do rejestrowania różnorodnych komplementarnych wzorców obrazów dermoskopowych. Te architektury uczą się wzorców na poziomie zarysów zmian skórnych, takich jak zmiany koloru i faktury oraz sposób ich budowy. Następnie moduł fuzji cech łączy głębokie cechy z cechami klinicznymi i danymi demograficznymi, tworząc bogatą cechę multimodalną. Połączone dane są następnie dzielone na dane treningowe, walidacyjne i testowe, aby zapewnić odpowiednie testowanie modelu. Następnie używany jest moduł fuzji cech, który łączy głębokie cechy z cechami klinicznymi i demografią, tworząc bogatą funkcjonalność multimodalną. Dane te są następnie dzielone na dane treningowe, testowe i walidacyjne, aby przetestować model. Strategia zespołowa jest stosowana do dalszego zwiększenia dokładności predykcji. Osiąga się to poprzez uśrednianie wyników kilku modeli i uzyskiwanie ostatecznej prognozy, wykorzystując te uśrednione prawdopodobieństwa, aby zwiększyć uogólnienie i zminimalizować wariancję, która w innym przypadku powstałaby przez poszczególne modele. Ponadto zintegrowane są metody tłumaczalności, takie jak techniki interpretowalności modelu, aby lepiej wyjaśnić, jak model podejmuje decyzje. Metoda interpretowalności modelu zapewnia interpretacje na poziomie cech poprzez kwantyfikację wkładu zmiennych wejściowych, podczas gdy metoda interpretowalności modelu identyfikuje ważne obszary w obrazach dermoskopowych na poziomie pikseli, które wpływają na przewidywanie. Techniki interpretowalności modeli oferują wyjaśnienia na poziomie cech, ilościowo określając wkład każdej zmiennej wejściowej, podczas gdy techniki interpretowalności modelu podkreślają ważne obszary na poziomie pikseli w obrazach dermoskopowych, które wpływają na przewidywanie. Połączone techniki sprawiają, że modele są bardziej interpretowalne i pomagają klinicystom zrozumieć, jak system podejmuje decyzje. W rezultacie proponowany proces zapewnia system zrozumiały i dbający o prywatność, zwiększając przejrzystość i zaufanie oraz umożliwiając bardziej wiarygodną diagnozę raka skóry w rzeczywistym środowisku opieki zdrowotnej.
Opis zbioru danych wraz z przygotowaniem
W tym artykule zbiór danych HAM10000 (Human against Machine with 10,000 training images) jest używany jako główny zbiór danych do klasyfikacji zmian skórnych w wielu klasach. Zbiór danych zawiera ponad 10 000 danych dermoskopowych zebranych z różnych źródeł medycznych. Źródła kliniczne i populacje, co czyni go jednym z najczęściej stosowanych zestawów danych referencyjnych w analizie obrazów dermatologicznych. Każdy obraz w zbiorze danych jest opatrzony ważnymi metadanymi klinicznymi, w tym identyfikatorami obrazów, etykietami diagnostycznymi, wiekiem pacjenta, płcią oraz anatomiczną lokalizacją zmiany. Zbiór danych obejmuje siedem kategorii diagnostycznych: keratozy aktiniczne (akiec), rak podstawnokomórkowy (BCK), łagodna keratoza (bkl), dermatofibroma (df), nerwy melanocytowe (nv), zmiany naczyniowe (vasc) oraz czerniak (mel).
Wstępne przetwarzanie metadanych klinicznych
Dodatkowe funkcje dodane do procesu klasyfikacji obejmowały metadane kliniczne, takie jak wiek, płeć oraz lokalizacja zmiany u pacjenta. Brakowało lub było nieznanych wartości, które traktowano deterministycznym podejściem preprocessingu. W przypadku zmiennej wieku (numerycznej) mediana wieku obliczona na zbiorze treningowym została użyta do impulowania brakujących wartości. Powodem wyboru imputacji mediany jest odporność na wartości odstających i zniekształcone dane, które są powszechne w danych klinicznych. Dla płci i lokalizacji zmian (zmienne kategoryczne) brakujące lub nieokreślone wartości nie były wyłączane; Przypisano je do specjalnej kategorii oznaczonej jako "nieznane". Metoda zachowuje wszystkie dostępne próbki, a model może swobodnie określić, czy sama brakowość jest predykcja. Następnie do zmiennych kategorycznych zastosowano kodowanie jedno-gorące, aby umożliwić ich kompatybilność z modelami uczenia maszynowego. Całe wstępne przetwarzanie, takie jak imputacja, kodowanie itp., było wykonywane wyłącznie na zbiorze treningowym, a te same transformacje wykonywano na zbiorach walidacyjnych i eksperymentalnych, aby uniknąć utraty danych. Nie wykluczono próbek tylko z powodu brakujących metadanych klinicznych, co zapewniło maksymalne wykorzystanie danych i zachowało spójność metodologiczną.

Rysunek 1: System wielomodalny klasyfikacji zmian skórnych. Podejście badawcze łączy cechy obrazów dermoskopowych z metadanymi pacjenta, aby klasyfikować zmiany skórne za pomocą modeli głębokiego uczenia zespołowego. Ramy obejmują wstępne przetwarzanie, ekstrakcję cech, fuzję multimodalną oraz klasyfikację, co pozwala na poprawę diagnostyki i interpretowalności. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Workflow przedstawia sugerowany proces klasyfikacji, oparty na obrazach dermoskopowych oraz metadanych klinicznych zbioru HAM10000 zmian skórnych. EfficientNet-B4, DenseNet201 oraz MobileNetV2 są używane do wstępnego przetwarzania i wyodrębniania głębokich cech na obrazach. Metadane kliniczne są kodowane, a fuzja cech służy do łączenia cech obrazowych z metadanymi klinicznymi. Aby rozwiązać problem nierównowagi klasowej, technika równoważenia klas jest stosowana w fuzowanej przestrzeni multimodalnej cech zamiast w surowych obrazach czy pojedynczych strumieniach cech, gdzie próbki syntetyczne zachowują połączenie cech wizualnych i klinicznych i nie generują nierealistycznych próbek. Połączone cechy są następnie trenowane na klasyfikatorach takich jak XGBoost, LightGBM oraz głębokim klasyfikatorze neuronowym.

Rysunek 2: Przykładowe obrazy dermoskopowe z siedmiu różnych grup diagnostycznych z zestawu danych HAM10000. Obrazy pokazują typowe cechy wizualne używane do automatycznej klasyfikacji. (A) Aktiniczne keratozy (akiec), wykazujące szorstkie powierzchnie z nieregularnym ubarwieniem. (B) Rak podstawnokomórkowy (BCC), o nieregularnych kształtach i naczyniach krwionośnych. (C) łagodne zmiany przypominające keratozę (bkl), wykazujące cechy keratotyczne i jasnobrązowe powierzchnie. (D) Dermatofibroma (df), z centralnym bliznowatym wyglądem i pigmentacją. (E) Znaminy melanocytowe (nv), łagodne i stosunkowo symetryczne znamiona. (F) Zmiany naczyniowe (naczyniowe), o czerwono-fioletowym wyglądzie spowodowanym naczyniami krwionośnymi. (G) czerniaka (mel), który objawia się nieregularną, asymetryczną i wielobarwną zmianą. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Te obrazy dermoskopowe ujawniają wizualną heterogeniczność zmian skórnych, które różnią się pigmentacją, fakturą i morfologią struktury. Te różnice stanowią poważne wyzwanie dla zautomatyzowanych systemów klasyfikacji i podkreślają znaczenie systemów opartych na uczeniu głębokim. Techniki ekstrakcji cech wrażliwe na ujawnianie subtelnych wzorców diagnostycznych. Po opisie zestawu danych, Rysunek 2 ilustruje siedem kategorii zmian skórnych zawartych w HAM10000 zbiorze, które są powszechnie badane w badaniach diagnostycznych dermatologicznych. Do tych klas należą keratozy aktiniczne (akiec), rak podstawnokomórkowy (bcc), łagodna keratoza (bkl), dermatofibroma (df), newy melanocytowe (nv), zmiany naczyniowe (wasc) oraz czerniak (mel)21. Wszystkie te typy zmian mają unikalne cechy wizualne, co pokazano na Rysunku 3, obejmujące zmienność wzorów pigmentacji, tekstury powierzchni, rozkładu kolorów oraz nieprawidłowości wzdłuż granic zmian. Cechy wizualne wszystkich tych zmian są różne i charakteryzują się zmiennością wzorów pigmentacji, tekstury powierzchni, rozkładu koloru oraz nieprawidłowości na brzegach zmian. Są to ważne cechy, które dermatolodzy powinni brać pod uwagę podczas badania klinicznego, dlatego muszą być dobrze modelowane przez modele uczenia maszynowego, aby uzyskać właściwą klasyfikację. Mimo że są to cechy, wiele z tych zmian wygląda niemal identycznie, co utrudnia ich rozróżnienie na podstawie samych obrazów dermoskopowych. Rozróżnienie między niektórymi typami zmian jest zazwyczaj bardzo subtelne, ale klinicznie istotne, co utrudnia jej automatyczną klasyfikację. Dlatego pilne jest stworzenie potężnych modeli AI zdolnych do trenowania do nauki drobnoziarnistych obrazów wizualnych oraz subtelnych różnic w zmianach między klasami zmian. Właściwości te zostaną nie tylko wzmocnione przez odpowiedni opis, co przełoży się na poprawę umiejętności rozróżniających modelu przy różnych typach zmian, ale także pomoże w wcześniejszej diagnozie niektórych niebezpiecznych schorzeń, takich jak czerniak. Wreszcie, może zwiększyć dokładność diagnostyki, informować klinicystów w podejmowaniu decyzji prowadzących do lepszych wyników leczenia oraz pomóc w podejmowaniu lepszych decyzji.

Rysunek 3: Rozkład zmian skórnych według klas w zbiorze danych HAM10000. Rysunek pokazuje rozmieszczenie siedmiu kategorii zmian rozważanych w badaniu: Aktiniczne keratozy (akiec), rak podstawnokomórkowy (bcc), łagodne zmiany przypominające keratozę (bkl), dermatofibroma (df), nerwy melanocytowe (nv), zmiany naczyniowe (wasc) oraz czerniak (mel). Ten wykres ilustruje nierównowagę klasową klas zmian. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Analiza zbioru danych wykazuje, że występuje nierównowaga w klasach różnych typów zmian. Najczęstszy typ Melanocytic Nevus (nv), z około 6 705 próbkami, jest najczęstszy, następnie czerniak (1 113) i łagodna keratoza (1 099). Przeciwnie, istnieją formy zmian o znaczeniu klinicznym, które są znacznie mniej reprezentowane, takie jak dermatofibroma (115) czy zmiany naczyniowe (142). Ta dysproporcja stanowi zagrożenie dla modeli uczenia maszynowego, ponieważ mogą one mieć tendencję do stronniczości wobec większości i nie są w stanie wykryć nietypowych, ale klinicznie istotnych zmian. Aby rozwiązać ten problem i poprawić trenowanie modelu na wydajności modelu względem wszystkich klas, wymagane jest zaawansowane wstępne przetwarzanie. Potrzebne są strategie. Należą do nich techniki takie jak ukierunkowane rozszerzanie danych oraz balansowanie klas. Dane można zrównoważyć za pomocą techniki (technika balansowania klas oraz korekta wagi klasowej), co zachęca model do odkrywania istotnych trendów w klasach niedostatecznie reprezentowanych. Hiperparametry używane w XGBoost i LightGBM były głównie ustawione na domyślne konfiguracje, z drobnymi korektami na podstawie wstępnych eksperymentów. Dla głębokiego klasyfikatora neuronowego wybrano empirycznie parametry architektoniczne i treningowe, takie jak liczba warstw, neuronów, tempo uczenia, wielkość partii oraz liczba epok, korzystając z danych walidacyjnych. Pełny zestaw hiperparametrów przedstawiono w Tabeli 3. Ogólnie rzecz biorąc, liczba obrazów dermoskopowych użytych w niniejszym badaniu wynosi łącznie 10 015. Daje to zaletę, że zapewnia ogromną kolekcję danych do trenowania i testowania, a także jest to żmudny, ale satysfakcjonujący wskaźnik. Ocena skuteczności proponowanego systemu klasyfikacji zmian skórnych.
Wstępne przetwarzanie danych
Potok wstępnego przetwarzania przygotowuje HAM10000 zbiór danych do uczenia się multimodalnego poprzez standaryzację obrazów, wyodrębnianie głębokich cech, integrację metadanych klinicznych oraz zwalczanie nierównowagi klasowej.
Standardyzacja obrazów: Wszystkie obrazy dermoskopowe zostały zmniejszone do 224 × 224 pikseli i znormalizowane za pomocą normalizacji z-score.
(1)
Gdy przedstawiam obraz surowy, μ oznacza średnią pikselową, a σ to odchylenie standardowe.
Głęboka ekstrakcja cech: Komplementarne głębokie cechy zostały wyodrębnione za pomocą trzech wcześniej wytrenowanych sieci splotowych neuronowych: Efficient-Net B4, DenseNet201 oraz MobileNetV2. Każda sieć odwzorowuje znormalizowany obraz na wektor cech.
(2)
Wyodrębnione cechy zostały połączone, tworząc jednolitą reprezentację:
fuzja fizji =F effB4 ||FGęsty ||FMobV2 (3)
(gdzie || oznacza konkatenację)
Integracja metadanych klinicznych: Cechy kliniczne, w tym wiek, płeć, wraz z lokalizacją zmian, zostały oczyszczone, zakodowane na etykietach i znormalizowane za pomocą skalowania min-max:
(4)
Przetworzony wektor metadanych Mkliniczny został połączony z cechami obrazu, aby stworzyć końcowe dane multimodalne:
Fpołączone =fuzjaFM kliniczna (5)
Dzielenie zbiorów danych: Zastosowano podział stratyfikowany, aby zachować rozkład klas
Dtrain,D test=Split(F comibed,0.8) (6)
Zarządzanie nierównowagą klasową: Zestaw danych HAM10000 charakteryzuje się poważną nierównowagą klas, gdzie próbki "nevus" (NV) dominują jako niedostatecznie reprezentowane w innych grupach mniejszościowych, takich jak DF z VASC. Aby zmniejszyć ten problem, zastosowano "Technikę Syntetycznego Nadpróbkowania Mniejszości" (technikę balansowania klas). Użycie: Nowe syntetyczne próbki zostały wyprodukowane jako:
xnew=xi + λ(xzi - xi) (7)

Gdzie xi jest próbką klasy mniejszościowej, xzi jest jednym z jej najbliższych sąsiadów, a λ jest losową wartością próbkowaną z rozkładu jednorodnego między 0 a 1. Próbka syntetična, jak pokazano na Rysunku 4, jest generowana wzdłuż odcinka łączącego x sub i. i xent łączącego xi xzi.

Rysunek 4: Rozkład klas w zbiorze danych HAM10000 przed/po zastosowaniu techniki balansowania klas. (A) Przed balansowaniem klas, z nierównowagą między klasami zmian. (B) Po balansowaniu klas w połączonej przestrzeni cech, gdzie reprezentacja wszystkich klas jest równa, aby uniknąć błędu w procesie trenowania klasyfikatorów. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Aby rozwiązać problem nierównowagi klasowej w HAM10000 zbiorze, stosuje się Technikę Syntetycznego Nadpróbkowania Mniejszości (technikę równoważenia klas). Technika balansowania klas generuje syntetyczne próbki dla klas mniejszościowych poprzez interpolację między istniejącymi punktami danych, co pomaga zwiększyć reprezentację niedostatecznie reprezentowanych kategorii zmian. Końcowym efektem uzyskania większej liczby przykładów tych mniejszościowych klas jest bardziej zrównoważony zbiór danych w odniesieniu do wszystkich siedmiu typów zmian. Taka zrównoważona reprezentacja pozwoli modelom klasyfikacyjnym lepiej uczyć się z każdą klasą i minimalizować uprzedzenia wobec klas większościowych. W związku z tym model jest bardziej sprawiedliwy pod względem klasyfikacji i wrażliwy, zwłaszcza na rzadkie, lecz klinicznie istotne zmiany skórne.
Ramy uczenia się chroniące prywatność
Proponowany system proponuje multimodalny system automatycznej klasyfikacji zmian na skórze, uwzględniający prywatność i interpretowalny. Ostatecznym celem systemu jest poprawa wydajności diagnostycznej oraz jednoczesne zabezpieczenie wrażliwych informacji o pacjentach przez cały proces szkolenia. Prywatność pacjentów jest niezbędną potrzebą w praktyce medycznej, ponieważ przepisy dotyczące ochrony danych medycznych oraz kwestie etyczne są niezwykle istotne w placówkach opieki zdrowotnej. W związku z tym sugerowany model będzie obejmował zdecentralizowany model uczenia się oparty na ideach uczenia się federacyjnego. W tym zdecentralizowanym środowisku trening modelu odbywa się na grupie rozproszonych klientów, zamiast agregować wszystkie dane pacjentów w jednym miejscu. Wszyscy uczestniczący klienci trenują model lokalnie na własnych danych, a surowe dane pacjentów nie opuszczają lokalnego środowiska. Alternatywą dla przenoszenia wrażliwych dokumentacji medycznych, aktualizacje modeli lub parametry są wysyłane do centralnego serwera w celu agregacji. To kooperacyjne podejście do uczenia umożliwia różnym instytucjom lub źródłom danych współtworzenie treningu modeli bez kompromisów w kwestii prywatności danych.
Niech wt(k) będą parametrami modelu k-tego klienta w t-tej iteracji, a nk będzie rozmiarem próby dla tego klienta. Aktualizacja globalnego modelu oblicza się jako:
(8)
Ta strategia agregacji zapewnia, że klienci z większymi zbiorami danych wnoszą proporcjonalnie większy wkład do globalnego modelu, jednocześnie umożliwiając mniejszym klientom udział w procesie uczenia się. Umożliwiając szkolenia zespołowe bez konieczności wymiany surowych danych pacjentów, proponowane ramy zachowują prywatność, jednocześnie korzystając z rozproszonej wiedzy w różnych zbiorach danych.
Federacja eksperymentalna
Zaprojektowano symulowany system nauki federacyjnej z HAM10000 zbiorem danych, aby potwierdzić efektywność oferowanych ram uwzględniających prywatność. Dane zostały podzielone na trzech klientów, aby zasymulować rzeczywiste, wieloinstytucjonalne środowisko z danymi nieidentycznie rozproszonymi (nie-IID). Każdy pacjent ma różny zestaw klas zmian, co reprezentuje różnice w świecie między ośrodkami klinicznymi. Identyczny wielomodalny pipeline ekstrakcji cech (EfficientNet-B4, DenseNet201, MobileNet V2 oraz metadane kliniczne) był uruchamiany lokalnie na każdym kliencie. Podczas treningu klienci samodzielnie aktualizowali swoje lokalne modele, a wyuczone parametry były wymieniane jedynie z centralnym serwerem do agregacji przez algorytm FedAvg. Porównano kompromis między dokładnością predykcyjną a prywatnością między modelem federacyjnym a scentralizowanym podejściem treningowym, aby zmierzyć wydajność każdego z nich. Wyniki testów pokazane na Rysunku 5 pokazują, że model federacyjny może działać konkurencyjnie, z jedynie niewielkim spadkiem dokładności w porównaniu do scentralizowanego uczenia się oraz znacznie lepszą ochroną danych.

Rysunek 5: Rozkład HAM10000 zbioru danych według klientów. Pokazuje to przydział danych o zmianach skórnych między pacjentów, co pokazuje różnorodność w rozkładzie danych. To pokazuje heterogeniczność danych wśród klientów, co jest kluczowym aspektem uczenia się federacyjnego. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Heterogeniczne (nie-IID) rozkłady pacjentów utworzonych w HAM10000 zostały podzielone na trzy grupy, aby modelować rzeczywiste warunki kliniczne. Rozkład różnych kategorii zmian u każdego pacjenta jest różny, zwłaszcza klasa nemusu (NV), która nie jest równomiernie rozłożona między pacjentami. To rozwiązanie świadczy o rzeczywistych trudnościach nauki federacyjnej, w której dane w instytucjach nie są równomiernie rozłożone.
Porównanie wydajności: nauka scentralizowana vs federowana
Aby ocenić skuteczność proponowanego systemu uczenia się federacyjnego, przeprowadzono analizę porównawczą między scentralizowanymi a federacyjnymi strategiami szkoleniowymi z wykorzystaniem zbioru danych HAM10000, jak pokazano na rysunku 6. W scentralizowanym środowisku wszystkie próbki danych były agregowane w jednej puli treningowej. Najlepiej działający model centralny, czyli zespół stacked, osiągnął łączną dokładność na poziomie 96%. Dla porównania, federacja rozdzielała zbiór danych na trzech klientów z danymi nieidentycznie rozproszonymi (nie-IID), gdzie każdy klient trenował model lokalnie i udostępniał jedynie parametry modelu za pomocą FedAvg. Model federacyjny osiągnął ogólną dokładność około 94%, co odpowiada różnicy w wydajności 2% w porównaniu z podejściem scentralizowanym, jak pokazano w Tabeli 4. Ten marginalny spadek jest oczekiwany dzięki zdecentralizowanej optymalizacji i zróżnicowanej dystrybucji danych między klientami.
Mimo że zaszła ta niewielka zmiana, model federacyjny nadal dobrze przewidywał. W scentralizowanym treningu zachowania według klas pokazują, że większość klas, takich jak new (nv) (wynik F1 = 1,00), pozostaje stabilna, podczas gdy klasy mniejszościowe, takie jak dermatofibroma (df) (wynik F1 ≈ 0,65–0,66), są bardziej wrażliwe na nierównowagę rozkładu, co może jeszcze bardziej wpłynąć na wyniki federacyjne. Co istotne, struktura federowana minimalizuje ryzyko ujawnienia wrażliwych informacji pacjentów, ponieważ nie wymaga dzielenia się surowymi danymi medycznymi między klientami.

Rysunek 6: Porównanie uczenia się federacyjnego vs. scentralizowanego. Ta liczba porównuje paradygmaty uczenia się na podstawie wskaźników wydajności takich jak dokładność, precyzja, przypomnienie i wynik F1. To pokazuje zdolność uczenia się federacyjnego do osiągania wyników porównywalnych z tradycyjnym podejściem do nauki, przy jednoczesnym zachowaniu prywatności. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Wyniki Tabeli 4 wskazują, że model uczenia federacyjnego jest zdolny do konkurencyjności, a spadek dokładności wynosi jedynie nieznaczne około 2% w porównaniu do modelu scentralizowanego. To niewielkie zmniejszenie można wyjaśnić zdecentralizowaną optymalizacją i dystrybucją danych nie-IID. Jednak model federacyjny ma ogromną przewagę pod względem ochrony prywatności, ponieważ wrażliwe dane pacjentów nie są udostępniane między klientami. Aby zapewnić uczciwe porównanie modelu federacyjnego i modelu scentralizowanego zespołu stacked, model federowany został przetestowany z tą samą architekturą i hiperparametrami. Aspekt ochrony prywatności omawiany w tym badaniu ma charakter koncepcyjny i ma na celu podkreślenie potencjalnej integracji technik takich jak uczenie się federacyjne w przyszłych badaniach. W obecnej implementacji nie przeprowadza się żadnej eksperymentalnej walidacji mechanizmów chroniących prywatność.
Wielofunkcyjne łączenie cech
Diagnoza zmian skórnych zazwyczaj obejmuje obserwację skóry oraz wywiad kliniczny. Dermatolodzy w większości przypadków nie tylko biorą pod uwagę obrazy dermoskopowe, umieszczając je w odniesieniu do informacji o pacjencie (wiek, płeć i miejsce zmiany), aby podjąć swoje oceny diagnostyczne. Proponowany system opiera się na inspiracji tego klinicznego przepływu pracy i wykorzystuje multimodalne podejście do nauki, łącząc dane obrazowe i kliniczne. CNN są trenowane na istniejących głębokich cechach obrazów dermoskopowych. Takie sieci rozpoznają skomplikowane wzory wizualne, w tym zmiany kolorów, formy zmian, anomalie strukturalne oraz cechy tekstury. Niemniej jednak cechy obrazów mogą nie wystarczać, by oddać kliniczny stan zmiany. Metadane kliniczne związane z każdym obrazem są więc również uwzględniane w nauczaniu. Zostanie stworzony moduł fuzji cech, który połączy głębokie cechy obrazowe z przetworzonymi atrybutami klinicznymi i informacjami demograficznymi. Ta złożona reprezentacja stanowi zintegrowaną, wielomodalną reprezentację cech, która zawiera zarówno informacje wizualne, jak i kontekstowe o każdej zmianie. Model może integrować kilka źródeł danych, aby uzyskać uzupełniające się wzorce zwiększające ogólną zdolność klasyfikacji. Reprezentacja multimodalna pozwala systemowi skuteczniej rozróżniać zmiany podobne wzrokowo oraz uwzględniać wskaźniki kliniczne. Model ten jest bardziej klinicznie znaczący i skuteczny, ponieważ jest bliższym przybliżeniem sposobu, w jaki dermatolodzy badają zmiany w praktyce klinicznej.
Uczenie zespołowe w warstwie
Proponowane ramy wykorzystują strategię uczenia zespołowego w warstwie, aby dodatkowo poprawić zdolność predykcyjną systemu. Uczenie zespołowe to metoda przewidywania złożona, która wykorzystuje dwa lub więcej modeli predykcyjnych do zwiększenia uogólnienia i minimalizacji błędów predykcyjnych, które mogą wystąpić w przypadku pojedynczych modeli. Wielu uczniów bazowych jest niezależnie trenowanych na reprezentacji cech multimodalnych, zamiast używać pojedynczego klasyfikatora. Wszyscy uczniowie bazowi podają szacunkowe prawdopodobieństwo, że dana próba będzie należeć do określonej klasy zmian. Te przewidywania prawdopodobieństwa są następnie agregowane na poziomie meta-me. Każdemu uczniowi podstawowemu przypisuje się wagę, aby pokazać jego względne znaczenie dla przewidywania końcowego. Funkcja aktywacji softmax jest używana do obliczenia zagregowanego wyjścia w celu wygenerowania znormalizowanych prawdopodobieństw klas. Metoda zespołu stacked ma wiele zalet. Po pierwsze, minimalizuje wariancję predykcji dzięki połączeniu różnych modeli, a tym samym poprawia wydajność uogólnienia. Po drugie, wzmacnia to siłę, ponieważ różne modele opisują różne trendy w danych. Po trzecie, uczenie zespołowe zwiększa klasyfikację klas zmian mniejszościowych, zwłaszcza w danych medycznych, gdzie niektóre schorzenia kliniczne nie są tak powszechne.
Wyjaśnialna integracja sztucznej inteligencji
Systemy medycznej AI powinny również jasno wyjaśniać swoje wybory, mimo że wysoka dokładność przewidywania jest kluczowa. Aby zaufać systemom AI i skutecznie prowadzić ich praktykę, klinicyści powinni być w stanie zrozumieć, jak model wpisuje się w diagnozę, którą generuje. Aby sprostać tej potrzebie, proponowane ramy uwzględniają metody wyjaśnialnej sztucznej inteligencji (XAI), jak pokazano na Rysunku 7.

Rysunek 7: Macierze pomyłki różnych modeli klasyfikacji dla klasyfikacji zmian skórnych wieloklasowych. (A) XGBoost, (B) LightGBM, (C) Deep Neural Classifier oraz (D) Stacked Ensemble model. Każda macierz pomyłek pokazuje zależność między prawdziwą klasą (wiersze) a przewidywaną klasą (kolumny) dla wszystkich siedmiu typów zmian skórnych: akiec, bcc, bkl, df, mel, nv i vasc. Modele XGBoost i LightGBM sprawdzają się dobrze w klasach nv i bkl, choć istnieje pewne zamieszanie między mel a nv. Deep Neural Classifier poprawia klasyfikację bkl i df oraz zmniejsza zamieszanie poza przekątną. Model Stacked Ensemble wykazuje największą spójność klasyfikacji, a przekątna staje się coraz bardziej dominująca. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
System obejmuje dwa popularne podejścia do wyjaśnienia (technikę interpretowalności modelu (SHapley Additive Explanations) oraz technikę interpretowalności modelu (Local Interpretable Model-agnostic Explanations)), aby dać wgląd w to, co model przewiduje. Metoda interpretowalności modelu wyjaśnia cechy na poziomie cech, mierząc, w jakim stopniu każda cecha wejściowa przyczyniła się do ogólnej prognozy. Pomaga określić, które zmienne kliniczne/cechy wizualne mają największy wpływ na wynik klasyfikacji. Pozwala to badaczom i klinicystom zobaczyć ogólne zachowanie modelu w całym zbiorze danych. Technika interpretowalności modelu natomiast zajmuje się lokalnymi wyjaśnieniami poszczególnych przewidywań. Podkreśla obszary obrazu dermoskopowego, które mają największy wpływ na decyzję modelu. Te pikselowe wyjaśnienia wizualne pozwalają klinicystom wizualnie obejrzeć obszary zmiany, które przyczyniły się do klasyfikacji. Proponowane ramy oferują globalną i lokalną interpretowalność; osiąga się to poprzez integrację techniki interpretowalności modelu. Mechanizm podwójnego wyjaśnienia zwiększa przejrzystość i umożliwia klinicystom ocenę, czy model jest skierowany na medycznie istotne wzorce.
Potencjał wsparcia decyzji klinicznych
Uczenie się chroniące prywatność, multimodalna fuzja cech, modelowanie zespołowe oraz wyjaśnialna sztuczna inteligencja to kluczowe elementy zintegrowanego i solidnego systemu automatycznej klasyfikacji zmian skórnych. Idealnie system powinien nie tylko mieć wysoką moc prognostyczną, ale także być przejrzysty i bezpieczny, co jest dwoma kluczowymi czynnikami w systemach medycznych, jak pokazano na Rysunku 8.

Rysunek 8: Krzywe charakterystyki operacyjnej odbiornika (ROC) dla modelu zespołu warstwowego. (A–C) Przedstawia krzywe ROC dla siedmiu typów zmian skórnych, z prawdziwą pozytywną częstością (czułość) i fałszywie pozytywną (1-specyficzność). Pole pod krzywą (AUC) reprezentuje wydajność modelu zespołu układowego w rozróżnianiu klas. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
System ten zapewnia wyjaśnialne prognozy i ochronę prywatności. W rezultacie jest to korzystny system dla innych systemów diagnostycznych dermatologicznych. System ten pozwala lekarzom i dermatologom oceniać podejrzliwość zmian i poprawić dokładność diagnostyczną, a w efekcie pomagać lekarzom i dermatologom w wczesnym diagnozowaniu pacjentów, gdy mogą mieć poważniejsze choroby (np. czerniaka). W istocie, jak pokazano na Rysunku 9, system ten dąży do zastosowania technologii wykorzystania zaawansowanych systemów sztucznej inteligencji (AI) oraz wdrażania rzeczywistych zastosowań w praktyce, aby pomóc dermatologom diagnozować pacjentów dokładniej i z większą pewnością, jednocześnie zapewniając im prywatność, bezpieczeństwo i komfort.

Rysunek 9: Wyniki wyjaśnialności przy użyciu technik interpretowalności modeli dla klasyfikacji zmian skórnych wieloklasowych. (A) Wykres SHAP pokazujący wkład cech wpływających na przewidywania zmian łagodnych i złośliwych. (B) Wyjaśnienie LIME dla prognozy BCC, ilustrujące cechy pozytywne i negatywne dla wyniku klasyfikacji. (C) Wyjaśnienie LIME dla predykcji akiek, podkreślające najbardziej wpływowe cechy w procesie podejmowania decyzji modelu. Te wizualizacje interpretowalności pokazują regiony i wyodrębnione cechy, które znacząco wpływają na prognozy modelu, poprawiając przejrzystość i zrozumienie procesu klasyfikacji w ocenie zmian skórnych. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Strategia oceny
Aby uniknąć błędu próbkowania i zachować pierwotny rozkład klas we wszystkich kategoriach zmian skórnych, zbiór danych podzielono na podział 80:20 pociąg–test. Podzbiór treningowy był następnie dzielony na stosunek 90:10 train: validate, aby dostroić hiperparametry i zoptymalizować model. Zestaw testowy nie był używany w procesie szkoleniowym na żadnym etapie i stosowano go jedynie na końcu procesu szkolenia jako końcowy test, aby zapobiec wycieku danych i zapewnić bezstronną ocenę wydajności. Wszystkie modele były wstępnie przetwarzane i trenowane w równych warunkach, dane były podzielone i rozszerzane w ten sam sposób, a protokoły ewaluacyjne były stosowane i realizowane w ten sam sposób, co umożliwiało uczciwe i powtarzalne porównania. Modele zostały dokładnie ocenione pod kątem dokładności, precyzji, przypomnienia, wyniku F1 oraz AUC, z szczegółową analizą wyników według klas, aby określić ich odporność zarówno dla klas głównych, jak i mniejszościowych. To ustandaryzowane narzędzie walidacyjne pomogłoby zwiększyć niezawodność, przejrzystość i uogólnialność proponowanego podejścia oraz przezwyciężyć potencjalne niespójności w raportowaniu efektywności.