本研究は、ディープラーニング機能、臨床メタデータ、説明可能なAI技術を統合し、診断の正確性、透明性、信頼性の高い臨床意思決定支援を向上させることで、皮膚病変の正確な分類のための説明可能でプライバシーを保つマルチモーダルアンサンブルファブリック構成の開発・評価を目的としています。
Research Article
June 12th, 2026
本研究は、ディープラーニング機能、臨床メタデータ、説明可能なAI技術を統合し、診断の正確性、透明性、信頼性の高い臨床意思決定支援を向上させることで、皮膚病変の正確な分類のための説明可能でプライバシーを保つマルチモーダルアンサンブルファブリック構成の開発・評価を目的としています。
皮膚科疾患の中でも、皮膚がんは最も生命を脅かすものの一つです。早期かつ正確な診断は患者の予後を改善するために重要です。それにもかかわらず、従来のAIベースの診断手法は、プライバシーの問題、解釈可能性の制限、多クラス皮膚病変データセットにおける深刻なクラス不均衡など、いくつかの課題に直面しています。これらの課題を克服するために、提案された論文では、複雑な深層学習モデルとアンサンブルモデリング手法、説明可能な人工知能手法を組み合わせたプライバシー意識の高い説明可能な多様性皮膚病変分類モデルを提案します。実験評価は、Kaggle Hubを通じてアクセス可能な多クラス皮膚病変分類に関する公開HAM10000ベンチマークデータを用いて行われており、7つの臨床的に有意な病変クラス(akiec、bcc、bkl、df、mel、nv、vasc)に分散しています。データのバランスを取るために、少数派クラスを強化するためにクラスバランス技術が用いられています。EfficientNet B4、DenseNet201、MobileNetv2は深い特徴表現を抽出するために用いられ、その後、顕著な臨床メタデータと組み合わせて堅牢なマルチモーダル特徴空間を構築します。これらのマルチモーダル機能はXGBoost、LightGBM、Deep Neural Classifier(DNC)の訓練に用いられ、それぞれ92%、90%、94%の分類精度を達成しました。積み重ねアンサンブル戦略を用いてXGBoost、LightGBM、Deep Neural Classifier(DNC)の出力を組み合わせることで、精度が96%向上します。モデル解釈可能性技術は、透明性を高める特徴レベルの説明を提供します。実験結果により、臨床的に関連した実生活での皮膚病変分類における効率性の観点から、提案された枠組みの実用性が証明されました。
皮膚がんは世界的に大きな健康負担であり、世界中で発生率が増加しています1。人工放射線は皮膚がんの主な要因として認識されており、遺伝子変異を引き起こして制御不能な細胞増殖や皮膚細胞の腫瘍発生を引き起こします1,2。 皮膚がんは、メラノーマ、扁平上皮癌、基底細胞癌(BCC)などの疾患群に分類されます。これらの疾患の原因、臨床症状、予後因子はそれぞれ異なります。3.皮膚疾患はピクセル単位の類似性から医療診断の障害となっています。2022年には、世界で推定331,722件のメラノーマ症例(死亡58,667件)と120万人のNMSC症例(69,416件の死亡)がありました。メラノーマの年齢標準化発症率(ASR)のピークはオセアニア(29.78/100,000人)、北米(16.3)、ヨーロッパ(10.43)でした。しかし、死亡率対発症率はアフリカ(0.35)とアジア(0.30)で最も高く、北アメリカとオセアニア(両国とも0.02)を上回っており、予後がより悪いことを反映している可能性があります。皮膚科では、皮膚病変の診断とモニタリングは主に視覚検査やその他の非侵襲的評価に依存してきました。侵襲的な方法は病変を損傷し、病変の臨床フォローアップの実施を妨げる可能性があるため、適用されません5.皮膚病変にはさまざまなタイプがあり、メラノーマ(MEL)、皮膚線維腫(DF)、アクチン性角化症および上皮内がん(AKIEC)、基底細胞癌(BCC)、良性角化症(BKL)、メラノサイト性母斑(NV)、血管病変(VASC)などがあり、HAM10000データセットで定義されています5。皮膚鏡画像の分類における主な課題は、毛髪、インク、定規の跡、色斑、きらめき、滴、油の泡、血管、色素沈着部位、および/または炎症性病変の存在です。医療画像および皮膚病変分類に関する特徴選択やディープラーニングに関する研究はこれまでに行われています。
皮膚がん診断のためのコンピュータビジョンベースのアプローチや、手作業で作られた深い特徴の統合も研究されており、分類性能向上のための特徴融合戦略も検討されています。最近の進展は、医療システムにおける機械学習の統合と安全な医療データ処理フレームワークの強化をさらに強調しています。 高度な計算アルゴリズムによるAI医療利用は、個別化され効率的な統合ケアプログラムを提供する可能性があり、特に遠隔や在宅ケアの患者に有益です13。皮膚鏡画像の広範なデータセットを活用することで、特に畳み込みニューラルネットワーク(CNN)を中心とした深層学習モデルを訓練し、さまざまな皮膚病変を正確に特定・分類することができます。完全畳み込みネットワーク(FCN)、CNN、ディープCNN(DCNN)、完全畳み込み残留ネットワーク(FCRN)、U-Netアーキテクチャなど、皮膚病変の分割において強い成果を示しています。ディープニューラルネットワーク(DNN)は非常に複雑な構造のため解釈が難しく、その意思決定プロセスは理解しにくい14,15。医療画像解析の最近の進展により、深層畳み込みニューラルネットワーク(CNN)が皮膚病変分類タスクの効率を大幅に向上させることが示されています。HAM10000のような皮膚鏡データセットを用いた複数の研究では、ResNet、DenseNet、EfficientNetなどのCNNベースのアーキテクチャが病変画像から階層的特徴表現を学習することで強力なマルチクラス分類性能を達成することが示されています。複数のCNNバックボーンを組み合わせるハイブリッド特徴融合アプローチは、補完的なディープ表現を統合することで診断精度をさらに向上させています16。さらに、現在の研究では医療画像解析におけるハイブリッドCNNトランスモデルの調査が行われています。ビジョントランスフォーマーおよびCNN特徴抽出器を用いたモデルは、局所的なテクスチャ内容や全体的な文脈関係の抽出が可能であるため、皮膚病変分類タスクにおいてより良い結果を示すことが証明されています(17)。これらのハイブリッド設計は、バランスの取れた表現学習能力を持つため、医療画像分野でも最先端と見なされています。
他の医学分野では、皮膚科以外の分野で特徴融合術が広く用いられています。CNNベースのハイブリッドシステムは、特徴表現や空間学習ダイナミクスの向上により、肺がんおよび大腸がんの分類精度向上を実現するために組織病理学画像解析にも応用されています16。同様に、眼科では融合特徴表現で訓練された深層学習モデルの利用が、糖尿病網膜症の眼底画像のステージングに成功裏に応用されており、多クラスのグレーディングタスクにおいてより堅牢性と分類精度が向上しています18。これらの分野におけるマルチモーダル融合法は、特に不均衡な医療データにおいて、異質な特徴表現の方が一般化や分類がより優れていることを示唆しています19。
これらの改善はなされていますが、現在の実践は通常、多様態化に限られ、統合されておらず、階級不均衡の問題に対処するには不十分で、臨床的意思決定にも役に立ちません。これらの問題を克服するために、本論文はプライバシーを重視し、両方のモデル解釈可能性を統合した説明可能な皮膚病変分類モデルを提示します。このような説明可能性の手法は、モデルの予測を説明し、どの特徴が最も重要かを示し、皮膚鏡画像の重要な領域を強調することで、臨床手技の明瞭さと信頼性を高め、臨床透明性の向上、信頼の構築、そして臨床現場でのAIシステムの安全な実装を支援するために活用できます。HAM10000データセットには大きな不均衡があり、いくつかのクラスは他よりもはるかに少ないサンプル数しか持っていません。この問題を克服するために、合成少数派オーバーサンプリング技術(クラスバランシングとも呼ばれる)が用いられ、過小評価クラスの合成サンプルを生成します。クラスバランシング技術はデータセットのバランスを取ることで、少数派病変タイプからより良く学習できるようになり、感度を高め、臨床的に有意だが発生頻度の低い皮膚がんのクラスをより信頼性の高い予測にします。 EfficientNet-B4、DenseNet201、MobileNetV2の詳細な機能を臨床メタデータと組み合わせて、すべての皮膚病変をより有益に表現しています。この二重の特徴により、皮膚鏡画像やその他の患者情報の視覚パターンを抽出し、より詳細な分析が可能になります。その後、XGBoost、LightGBM、ディープニューラルネットワークなどの分類器で特徴を訓練し、皮膚病変分類モデルの能力と性能を向上させます。モデルのアンサンブルは、スタッキングアンサンブル技法でモデルをさらに引き立てます。これは複数のモデルの強みを活かし、アンサンブル内のすべてのモデルの予測から学び、その限界を緩和する複合モデルです。
本研究は公開されている完全に匿名化された皮膚鏡データセットを使用し、直接の人間関与は含まれていませんでした。したがって、倫理委員会の承認は必要ありませんでした。 材料表 には、本研究で使用されるすべての材料や工具の詳細が記載されています。 表1には 、プロセッサタイプ、メモリ、オペレーティングシステム、ソフトウェアフレームワークなどのハードウェアおよびソフトウェア環境の詳細が含まれています。 表2には 、各皮膚病変カテゴリーのクラス別精度、リコール率、F1スコア、支持度の詳細が含まれています。
提案された多様性皮膚病変分類フレームワークの全体的なワークフロー
本研究の一般的な計画は、皮膚病変の多重分類の正確かつ理解しやすいスキームを作成することです。ワークフローはHAM10000データセットのデータ収集と前処理から始まり、その後ディープラーニングアーキテクチャを用いた特徴抽出と臨床メタデータの組み込みに進みます。その後、複数の機械学習分類器が訓練・最適化され、その結果がアンサンブル戦略として集約されます。最後に、モデルの予測は説明可能性技術を用いて解釈され、実際の臨床意思決定支援に活用されるモデルの有効性が評価されます。
提案されたシステムの予測精度を向上させるために、画像ベースの特徴と臨床メタデータの両方を組み合わせたマルチモーダル機械学習パイプラインが用いられています( 図1参照)。モデルは皮膚鏡画像の視覚出力と患者に関する情報を統合し、さまざまな皮膚病変に関連するより詳細なパターンを特定できます。このような組み合わせにより、システムはより良い予測を行え、最終的にはより良い予測が可能になります。皮膚病変分類の質と有用性を向上させます。ニューラルネットワーク(EfficientNet-B4、DenseNet201、MobileNetV2)を用いて、事前に学習済みの畳み込み型ディープ特徴を抽出し、皮膚鏡画像の多様な補完パターンを捉えることができます。これらのアーキテクチャは、皮膚病変の見た目、色や質感の変化、構造の高次のパターンを学びます。次に、特徴融合モジュールが深い特徴と臨床特徴、人口統計データを組み合わせて、豊かなマルチモーダル特徴を作り出します。統合されたデータは、適切なモデルテストを行うために、トレーニングデータ、検証データ、テストデータに分けられます。次に、特徴融合モジュールを用いて、深い特徴と臨床的特徴および人口統計学を統合し、豊かなマルチモーダル特徴を作り出します。このデータはトレーニングデータ、テストデータ、検証データに分割され、モデルのテストを行います。予測精度をさらに向上させるためにアンサンブル戦略が用いられます。これは複数のモデルの結果を平均し、それらの平均確率を用いて最終的な予測を導き出し、一般化を強化し、個々のモデルによって生じる分散を最小化することで行われます。これに加えて、モデル解釈可能性技術などの説明可能性手法も統合され、モデルがどのように意思決定を行うかをさらに説明しています。モデル解釈可能性法は入力変数の寄与を定量化することで特徴レベルの解釈を提供しますが、モデル解釈可能性法はピクセルレベルで予測に影響を与える皮膚鏡画像内の重要な領域を特定します。モデル解釈可能性技術は各入力変数の寄与を定量化することで特徴レベルの説明を提供し、モデル解釈可能性技術は皮膚鏡画像内のピクセルレベルで予測に影響を与える重要な領域を強調します。これらの技術を組み合わせることで、モデルの解釈性が向上し、臨床医がシステムがどのように意思決定を行うかを学ぶ助けとなります。その結果、提案されたパイプラインは理解しやすくプライバシーを重視したシステムを提供し、透明性と信頼を高め、実際の医療現場でより信頼性の高い皮膚がん診断を可能にします。
準備を伴うデータセットの記述
本論文では、HAM10000(10,000枚の訓練画像を用いた人間対機械)データセットを多クラス皮膚病変分類の主要なデータセットとして用いています。このデータセットには、さまざまな医療資料から収集された10,000件以上の皮膚鏡図が含まれています。臨床情報源と集団を含み、皮膚画像解析で最も広く使われているベンチマークデータセットの一つとなっています。データセット内の各画像には、画像識別子、診断ラベル、患者の年齢、性別、病変の解剖学的部位など重要な臨床メタデータが添付されています。データセットは7つの診断カテゴリーをカバーしています:アクチン性角化症(AKEC)、基底細胞癌(BCC)、良性角化症(BKL)、皮膚線維腫(DF)、メラノサイト性母斑(NV)、血管病変(VASC)、およびメラノーマ(mel)。
臨床メタデータ前処理
分類パイプラインに追加された補助機能には、年齢、性別、病変の患者内の位置などの臨床メタデータが含まれていました。欠損または未知の値は決定論的前処理で処理されました。年齢変数(数値)の場合、訓練セット上で計算された中央値の年齢を用いて欠損値を補足しました。中央値補完が選ばれた理由は、臨床データで多い異常値や歪んだデータに耐性があるためです。性別および病変部位(カテゴリ変数)については、欠損または不特定値は除外されませんでした。彼らは「不明」とラベル付けされた特別なカテゴリーに割り当てられました。この方法は利用可能なすべてのサンプルを保持し、モデル自体が欠損性が予測的かどうかを自由に判断できます。その後、カテゴリ変数にワンホットエンコーディングを適用し、機械学習モデルとの互換性を可能にしました。補完やエンコーディングなどの前処理はすべてトレーニングセット上で行われ、データ損失を避けるために検証セットや実験セットにも同じ変換が行われました。臨床メタデータの欠如だけでサンプルを除外することはなく、これによりデータの最大限の活用と方法論的一貫性が確保されました。

図1:皮膚病変分類のためのマルチモーダルシステム。 この研究アプローチは、皮膚鏡画像の特徴と患者メタデータを組み合わせ、アンサンブル深層学習モデルを用いて皮膚病変を分類します。このフレームワークには前処理、特徴抽出、マルチモーダル融合、分類が含まれ、診断性能と解釈性の向上を可能にします。 この図の拡大版はこちらをクリックしてご覧ください。
ワークフローは、皮膚病変データセットの皮膚鏡画像および臨床メタデータに基づく推奨分類パイプラインHAM10000示しています。EfficientNet-B4、DenseNet201、MobileNetV2は画像の深部特徴の前処理と抽出に使用されます。臨床メタデータは符号化され、特徴融合を用いて画像特徴と臨床メタデータを組み合わせます。クラス不均衡の問題に対処するため、合成サンプルは生画像や個別の特徴ストリームの代わりに、合成サンプルが視覚的特徴と臨床的特徴の両方を維持し、非現実的なサンプルを生成しない融合マルチモーダル特徴空間で用いられます。統合された特徴はXGBoost、LightGBM、ディープニューラル分類器などの分類器で訓練されます。

図2:HAM10000データセットの7つの異なる診断群からの皮膚鏡画像の例。画像は自動分類に使われる典型的な視覚的特徴を示しています。(A) アクチニック角化症(akiec)、粗い表面と不規則な色素形成を示します。(B) 基底細胞癌(bcc)、形状や血管が不規則である。(C)良性角化症様病変(bkl)、薄茶色の角化症状が見られる。(D) 皮膚線腫(df)、中央に瘢痕状の外観と色素沈着を持つ。(E) メラノサイト母斑(nv)、良性で比較的対称的なほくろ。(F)血管病変(血管)、血管により赤紫色の外観を示す。(G) メラノーマ(mel):不規則な形で非対称かつ多色素の病変として現れます。この図の拡大版はこちらをクリックしてご覧ください。
これらの皮膚鏡画像は、皮膚病変の視覚的多様性を示し、色素沈着、質感、構造の形態に変化を示します。これらのバリエーションは自動分類システムにとって大きな課題であり、深層学習ベースのシステムの重要性を強調しています。微妙な診断パターンを明らかにする特徴抽出技術。データセットの説明に続き、 図2 は皮膚科診断画像研究で一般的に研究されているHAM10000データセットに含まれる7つの皮膚病変のカテゴリーを示しています。これらの分類には、アクチン性角化症(akiec)、基底細胞癌(bcc)、良性角化症(bkl)、皮膚線維腫(df)、メラノサイト性痣(nv)、血管病変(vasc)、およびメラノーマ(mel)21が含まれます。これらの病変は、 図3に示されるように、色素パターン、表面の質感、色の分布、病変境界に沿った異常など、独特の視覚的特徴を持っています。これらの病変の視覚的特徴は異なり、色素パターン、表面の質感、色の分布、病変の境界の異常に変化が特徴です。これらは皮膚科医が臨床検査を行う際に念頭に置く重要な特徴であり、適切な分類を得るために機械学習モデルによって適切にモデル化される必要があります。これらは区別の特徴であるにもかかわらず、多くの病変はほぼ同一に見えるため、皮膚鏡画像だけでは区別が難しいです。病変の種類の違いは通常非常に微妙ですが臨床的に重要であり、自動的に分類するのは難しいです。そのため、細かな視覚画像や病変クラス間の微妙な違いを学習できる強力なAIモデルの開発が緊急に求められています。これらの特性は適切な記述によって強化され、異なる病変に対するモデルの識別能力の向上につながり、メラノーマのような危険な状態の早期診断にも役立ちます。最後に、診断の精度を高め、臨床医が患者転向を改善する意思決定を助け、より良い意思決定を支援することができます。

図3:HAM10000データセットにおける皮膚病変のクラス別分布。 図は本研究で検討された7つの病変カテゴリーの分布を示しています:アクチニン性角化症(akiec)、基底細胞癌(bcc)、良性角化様病変(bkl)、皮膚線維腫(df)、メラノサイト性母斑(nv)、血管病変(vasc)、およびメラノーマ(mel)。このグラフは病変クラスのクラス不均衡を示しています。 この図の拡大版はこちらをクリックしてご覧ください。
データセットの分析により、異なる病変の種類に不均衡があることが示されています。最も一般的なメラノサイト性母斑(nv)は約6,705件のサンプルを持ち、次いでメラノーマ(1,113件)と良性角化症(1,099件)が続きます。一方で、臨床的に重要な病変の中には、皮膚線腫(115)や血管病変(142)のように、著しく少ない形態もあります。この不均衡は機械学習モデルにとって脅威であり、機械学習モデルは多数派に偏りがちで、異常だが臨床的に重要な病変を検出する能力を持たない可能性があります。この問題に対処し、すべてのクラスに関するモデル性能に関するモデルの訓練を改善するためには、高度な前処理が必要です。戦略が必要です。これには、ターゲットを絞ったデータ拡張やクラスバランスなどの手法が含まれます。このデータ(クラスバランス技術およびクラス重み調整)を用いてバランスを取ることができ、モデルは代表されにくいクラスの大きな傾向を発見できます。XGBoostとLightGBMで使用されたハイパーパラメータは主にデフォルトの設定に設定されており、予備実験に基づくわずかな調整が行われていました。ディープニューラル分類器では、層数、ニューロン数、学習率、バッチサイズ、エポック数などのアーキテクチャおよび訓練パラメータを検証データを用いて経験的に選択しました。ハイパーパラメータの完全なセットは 表3に示されています。本研究で使用された皮膚鏡画像の総数は10,015枚です。これにより、膨大なデータの学習やテストが可能になり、面倒ではあるもののやりがいのある基準となります。提案されている皮膚病変分類システムの有効性を評価してください。
データ前処理
前処理パイプラインは、画像の標準化、深い特徴抽出、臨床メタデータの統合、クラスの不均衡の解消を通じて、HAM10000データセットをマルチモーダル学習に備えます。
画像標準化:すべての皮膚鏡画像は224×224ピクセルにリサイズされ、zスコア正規化で正規化されました。
(1)
私が生画像を表すとき、μはピクセル単位の平均、σは標準偏差を表します。
ディープ特徴抽出:補完的なディープフィーチャーは、Efficient-Net B4、DenseNet201、MobileNetV2の3つの事前学習済み畳み込みニューラルネットワークを用いて抽出されました。各ネットワークは正規化された画像を特徴ベクトルにマッピングします。
(2)
抽出された特徴は連結され、統一された表現を形成しました。
FFusion=FEffB4 ||F密度 ||FMobV2 (3)
(ここで||は連結を意味します)
臨床メタデータ統合:年齢、性別、病変の位置化などの臨床属性がクリーンアップされ、ラベルでエンコードされ、最小最大スケーリングを用いて正規化されました:
(4)
処理されたメタデータベクターMは画像 特徴と融合され、最終的なマルチモーダル入力を構築しました。
F結合=F融合M臨床(5)
データセット分割:クラス分布を保つために層別分割を適用しました
D列車、Dテスト=分割(F comibed、0.8)( 6)
クラス不均衡の扱い:HAM10000データセットではクラスの不均衡が深刻で、「ネヴァス(NV)」サンプルが優勢であり、DFはVASCのような他の少数派グループでは過小代表されています。この問題を減らすために、「合成少数派オーバーサンプリング技術」(クラスバランシング技術)が採用されました。使用方法:新しい合成サンプルは以下の通りに製造されました:
xnew=xi + λ(xzi - xi) (7)

ここで xi は少数派クラスのサンプル、xzi はその最も近傍の一つ、λ は0から1の間の一様分布から抽出されたランダムな値です。 図4に示される合成サンプルは、xのsub iを結ぶ線分に沿って生成されます。そしてXentがX、I 、Xziを結びます。

図4:クラスバランシング技術を適用する前後の、HAM10000データセットにおけるクラス分布。 (A) クラスバランシング前で、病変クラス間の不均衡。(B) クラスバランスを組み合わせた特徴空間で、分類器訓練過程のバイアスを避けるためにすべてのクラスの表現が等しい場合。 この図の拡大版はこちらをクリックしてご覧ください。
HAM10000データセットにおけるクラス不均衡の問題に対処するため、合成少数派オーバーサンプリング技術(クラスバランシング技術)が適用されます。クラスバランシング技術は、既存のデータ点間を補間することで少数派クラスの合成サンプルを生成することで、過小評価された病変カテゴリーの表現性を高めるのに役立ちます。これらの少数派クラスの例を増やすことで、7つの病変タイプすべてに関して、よりバランスの取れたデータセットが得られます。このバランスの取れた表現により、分類モデルは各クラスでより良く学習し、多数派クラスのバイアスを最小限に抑えられます。その結果、このモデルは分類においてより公正であり、特に稀でありながら臨床的に重要な皮膚病変に対して敏感です。
プライバシー保護学習フレームワーク
提案されたシステムは、プライバシーを意識し解釈可能な多様性の自動病変分類システムを提案しています。このシステムの最終的な目的は、診断性能を向上させると同時に、研修過程を通じて敏感な患者情報を保護することです。患者のプライバシーは医療現場において不可欠な要件であり、医療現場では医療データのプライバシー法や倫理的配慮が非常に重要です。したがって、提案されたモデルには、連邦学習の考え方に基づく分散型学習モデルが含まれます。この分散型環境では、モデルトレーニングはすべての患者データを集中的な場所に集約するのではなく、分散したクライアントのグループ上で行われます。参加するすべてのクライアントは自社のデータでモデルをローカルに訓練し、生の患者データはローカル環境から離れません。機密医療記録の移動の代わりに、モデルの更新やパラメータを中央サーバーに送信して集約します。この協力的な学習アプローチにより、さまざまな機関やデータソースがデータプライバシーを損なうことなくモデルトレーニングに貢献できます。
wt(k) を k 番目のクライアントの tth 回回におけるモデルパラメータ、nk をそのクライアントでのサンプルサイズとします。グローバルモデルの更新は次のように計算されます:
(8)
この集約戦略により、より大きなデータセットを持つクライアントがグローバルモデルに比例して多く貢献しつつ、小規模なクライアントも学習プロセスに参加できます。生の患者データを交換せずに協働トレーニングを可能にすることで、提案されたフレームワークはプライバシーを維持しつつ、データセットにまたがる分散知識の恩恵を享受しています。
連合実験装置
HAM10000データセットを用いたシミュレーションフェデレーション学習システムは、提供されたプライバシー意識型フレームワークの効率性を確認するために設計されました。データは3つのクライアントに分割され、非同一分布(非IID)データを用いた実生活の多機関環境をシミュレートしました。クライアントごとに病変のタイプが異なり、臨床センターごとに異なる状況が見られます。同一のマルチモーダル特徴抽出パイプライン(EfficientNet-B4、DenseNet201、MobileNet V2、臨床メタデータ)がすべてのクライアントでローカル実行されていました。トレーニング中、クライアントは自らローカルモデルを更新し、学習したパラメータはFedAvgアルゴリズムによって集約される中央サーバーとのみ交換されました。予測精度とプライバシーのトレードオフは、フェデレーテッドモデルと中央集権型トレーニング手法の間で比較され、それぞれのパフォーマンスを測定しました。 図5 に示されたテスト結果は、フェデレーテッドモデルが競争力のある性能を発揮でき、中央集権学習に比べて精度がわずかに低下する程度で、データプライバシーが大幅に向上していることを示しています。

図5:HAM10000データセットのクライアントごとの分布。 これは患者間の皮膚病変データの割り当てを示しており、データ分布の多様性を示しています。これはクライアント間のデータの異質性を示しており、フェデレーテッドラーニングの重要な側面です。 この図の拡大版はこちらをクリックしてご覧ください。
HAM10000で形成されたクライアントの異質(非IID)分布を3つのグループに分け、実際の臨床状態をモデル化しました。各クライアント内の病変の異なるカテゴリーの分布は異なり、特に母斑(nv)のクラスはクライアント間で均等に分布していません。この配置は、機関内のデータが均等に分散されていない連邦学習の現実的な困難さを示しています。
パフォーマンス比較:中央集権学習とフェデレーテッド学習
提案されたフェデレーテッドラーニングフレームワークの有効性を評価するため、 図6に示すように、HAM10000データセットを用いて中央集権型とフェデレーテッド型トレーニング戦略の比較分析が行われました。中央集権的な環境では、すべてのデータサンプルが単一のトレーニングプールに集約されました。最も性能の良い中央集権モデルであるスタックアンサンブルは、全体の精度96%を達成しました。対照的に、フェデレーテッド設定ではデータセットを3つのクライアントに分散し、各クライアントがローカルでモデルを訓練し、FedAvgを使ってモデルパラメータのみを共有しました。フェデレーテッドモデルは全体の精度約94%を達成し、中央集権型アプローチと比べて性能差は2%に相当します( 表4参照)。このわずかな減少は、分散型最適化とクライアント間での異種的なデータ分布によるものです。
この小さな変化が起きたにもかかわらず、連邦モデルは依然として予測に優れていました。中央集権型トレーニングでは、クラスごとの行動から、nevus(nv)(F1スコア=1.00)のような大多数クラスは安定し、一方で皮膚線維腫(df)(F1スコア≈0.65–0.66)のような少数クラスは分布の不均衡により敏感であり、これがフェデレーションのパフォーマンスにさらに影響を及ぼす可能性があります。特に、フェデレーテッド構造は、クライアント間で生の医療データを共有する必要がないため、機密性の高い患者情報の露出リスクを最小限に抑えています。

図6:連邦学習と中央集権学習の比較。 この図は、精度、正確さ、想起率、F1スコアなどのパフォーマンス指標を用いた学習パラダイムを比較しています。これは、フェデレーテッドラーニングが従来の学習アプローチと同等のパフォーマンスを達成しつつ、プライバシーを守れる能力を示しています。 この図の拡大版はこちらをクリックしてご覧ください。
表4の結果は、連邦学習モデルが競争力を持つことが可能であり、中央集権型モデルと比べて精度の低下は約2%程度であることを示しています。このわずかな減少は分散型最適化と非IIDデータ分布によって説明できます。しかし、フェデレーテッドモデルはプライバシー保護の面で大きな利点があります。なぜなら、敏感な患者情報がクライアント間で共有されないからです。連邦モデルと集中型スタックアンサンブルモデルの公平な比較を行うため、連邦モデルは同じアーキテクチャとハイパーパラメータでテストされました。本研究で議論されるプライバシー保護の側面は概念的なものであり、将来の研究におけるフェデレーテッドラーニングなどの技術の統合の可能性を強調することを目的としています。現在の実装では、プライバシー保護メカニズムの実験的検証は行われていません。
マルチモーダル特徴融合
皮膚病変の診断には通常、皮膚観察と臨床歴が含まれます。皮膚科医は多くの場合、皮膚鏡画像を患者の情報(年齢、性別、病変の位置)と関連付けて判断するだけでなく、診断判断を行います。提案されたシステムは、この臨床ワークフローに着想を得て、画像データと臨床データを組み合わせるマルチモーダル学習アプローチを取り入れています。CNNは既存の皮膚鏡像深部特徴に基づいて訓練されます。これらのネットワークは、色の変化、病変の形態、構造的異常、テクスチャの特徴など、複雑な視覚デザインを認識します。しかしながら、画像の特徴だけでは病変の臨床状況を捉えるには不十分かもしれません。したがって、すべての画像に関連する臨床メタデータも学習に含まれます。深層画像の特徴と処理された臨床特性および人口統計情報を統合する特徴融合モジュールが作成されます。この複合的表現は、すべての病変の視覚的および文脈的情報からなる統合された多様性特徴表現を構成します。モデルは複数のデータソースを統合し、全体的な分類能力を高める補完的なパターンを得ることができます。マルチモーダル表現により、視覚的に類似した病変をより効果的に区別し、臨床指標も考慮できます。このモデルは、皮膚科医が臨床現場で病変を研究する方法に近づけているため、臨床的により意味深く効果的です。
積み重ねアンサンブル学習
提案されたフレームワークは、システムの予測能力をさらに向上させるために、スタックアンサンブル学習戦略を用いています。アンサンブル学習は、2つ以上の予測モデルを用いて一般化を強化し、単一のモデルで発生する予測誤差を最小化する複合的な予測手法です。複数の基底学習者は単一の分類器を使わず、マルチモーダル特徴表現で独立して訓練されます。すべてのベースラーナーは、特定のサンプルが特定の病変クラスである可能性の推定値を提供します。これらの確率予測はメタレベルで集約されます。各ベース学習者に重みが割り当てられ、最終予測に対する相対的な重要性を示します。ソフトマックス活性化関数を用いて集計出力を計算し、正規化されたクラス確率を生成します。スタックアンサンブル法にはいくつかの利点があります。第一に、複数のモデルの組み合わせによる予測分散を最小化し、一般化の性能を向上させます。第二に、さまざまなモデルがデータの異なる傾向を記述するため、強さを高めます。第三に、アンサンブル学習は、特に医療データにおいて、臨床的に関心のある特定の状態があまり一般的でない少数派病変クラスの分類を強化します。
説明可能な人工知能統合
医療AIシステムは、高い予測精度が重要であっても、選択について明確な説明を提供するべきです。AIシステムを信頼し、その実践で効果的に行うためには、臨床医はモデルがその診断にどのように適合するかを理解できる必要があります。このニーズに応えるため、提案されたフレームワークは 図7に示される説明可能な人工知能(XAI)手法を取り入れています。

図7:多クラス皮膚病変分類のための異なる分類モデルの混同行列。 (A) XGBoost、(B) LightGBM、(C) 深層神経分類器、(D) 積み重ねアンサンブルモデル。各混同行列は、7種類の皮膚病変(akiec、bcc、bkl、df、mel、nv、vasc)すべての真のクラス(行)と予測クラス(列)との関係を示します。XGBoostとLightGBMモデルはNVとBKLクラスで良好に動作しますが、melとnvの間には多少の混乱があります。ディープニューラル分類器はbklとdfの分類を改善し、対角線外の混乱を減少させます。スタックドアンサンブルモデルは最も分類の一貫性が高く、対角線がますます優勢になっています。 この図の拡大版はこちらをクリックしてご覧ください。
このシステムは、モデルが何を予測するかを理解するために、モデル解釈可能性技術(SHapley加法的説明)とモデル解釈可能性技術(局所解釈モデル非依存的説明)という2つの一般的な説明可能性アプローチを含んでいます。モデル解釈可能性法は、各入力特徴が全体の予測にどれだけ寄与したかを測定することで特徴レベルで特徴を説明します。どの臨床変数や視覚的特徴が分類結果に最も影響を与えるかを判断するのに役立ちます。これにより、研究者や臨床医はデータセット全体にわたるモデルの全体的な挙動を把握できます。一方、モデル解釈可能性技術は個々の予測の局所的説明を扱います。これは、モデルの判断に最も大きな影響を与える皮膚鏡画像の領域を強調します。これらのピクセル単位の視覚的説明により、臨床医は分類に影響を与えた病変の領域を視覚的に検査できます。提案された枠組みは、グローバルおよびローカルの解釈可能性を提供します。これはモデル解釈可能性技術を統合することで達成されます。二重説明メカニズムにより透明性が向上し、臨床医はモデルが医学的に重要なパターンを標的としているかどうかを評価できます。
臨床的意思決定支援の可能性
プライバシー保護型学習、マルチモーダル特徴融合、アンサンブルモデリング、説明可能なAIは、自動皮膚病変分類のための統合的かつ堅牢なシステムの重要な要素です。理想的には、システムは高い予後力を持つだけでなく、透明性と安全性も備えており、 これは図8に示されるように医療システムにおける重要な要素です。

図8:スタックアンサンブルモデルの受信者操作特性(ROC)曲線。 (A–C) これは7種類の皮膚病変のROC曲線を示しており、真陽性率(感度)と偽陽性率(1特異性)を示しています。曲線下面積(AUC)は、積み重ねアンサンブルモデルがクラス間を識別する際のパフォーマンスを表します。 この図の拡大版はこちらをクリックしてご覧ください。
このシステムは説明可能な予測とプライバシー保護を提供します。その結果、他の皮膚科診断システムにとって有益なシステムとなっています。このシステムにより、医療従事者や皮膚科医は病変の疑いを評価し診断精度を向上させることができ、その結果、より重篤な疾患(例:メラノーマ)がある可能性のある早期段階で患者を診断する手助けをします。本質的に、図9に示されているように、このシステムは高度な人工知能(AI)システムの利用技術と実際の応用を実践に応用し、皮膚科医が患者のプライバシーと安全性、快適さを確保しつつ、より正確かつ自信を持って診断できるよう支援することを目指しています。

図9:モデル解釈可能性技術を用いた多クラス皮膚病変分類の説明可能性結果。 (A) 良性および悪性病変予測に影響を与える特徴寄与を示すSHAPプロット。(B) BCC予測に対するLIMEによる説明で、分類結果に正および負の特性を寄与する特徴を示す。(C) アキエク予測のLIMEによる説明、モデル意思決定プロセスに関わる最も影響力のある特徴を強調する。これらの解釈可能性の可視化は、モデルの予測に大きな影響を与える領域や抽出された特徴を示し、皮膚病変評価における分類プロセスの透明性と理解を向上させます。 この図の拡大版はこちらをクリックしてご覧ください。
評価戦略
サンプリングバイアスを避け、すべての皮膚病変カテゴリーにわたる元のクラス分布を維持するため、データセットは80:20のトレイン・テスト分割に分割されました。トレーニング部分セットは90:10のtrain: validateの比率で分割され、ハイパーパラメータを調整しモデルを最適化しました。このテストセットは訓練プロセスのいかなる段階でも使用されず、データの漏洩を防ぎ、偏りのないパフォーマンス評価を確保するために最終テストとしてトレーニング終了時にのみ適用されました。すべてのモデルは事前処理と訓練が等しく行われ、データは同じ方法で分割・増強され、評価プロトコルも同じ方法で適用・実行されたため、公平かつ再現性の高い比較が可能となりました。モデルは正確性、精度、リコール率、F1スコア、AUCに基づいて徹底的に評価され、主要および少数派病変のクラスに対する堅牢性を詳細に分析しました。この標準化された検証ツールは、提案されたアプローチの信頼性、透明性、一般化可能性を高め、パフォーマンス報告の潜在的な矛盾を克服するのに役立ちます。
4つの分類手法(XGBoost、LightGBM、ディープニューラル分類器、スタックアンサンブルモデル)が多クラス皮膚病変分類のために評価されました。モデルはそれぞれ92%、90%、94%、96%の総合精度を達成し、c
クラス別のパフォーマンス
各病変カテゴリーごとに、正確度、想起率、F1スコアを含む詳細なクラス別評価が提供されています。akiecクラス(サポート=65)では、スタックアンサンブルは精度0.72、リコール率0.73、F1スコア0.72を達成し、XGBoost(F1=0.70)、LightGBM(F1=0.68)、ディープニューラル分類器(F1=0.71)をわずかに上回りました。bcc (サポート=103)では、スタックアンサンブルは精度=0.87、リコール=0.84、F1スコア=0.85を獲得し、XGBoost(F1=0.83)やLightGBM(F1=0.81)と同等で、ディープニューラル分類器(F1=0.84)よりやや高くなっていました。bkl(サポート=220)では、スタックアンサンブルは精度=0.93、リコール率=0.85、F1スコア=0.89を達成し、XGBoost(F1=0.87)、LightGBM(F1=0.86)、およびディープニューラル分類器(F1=0.88)を上回る成績を収めました。df (サポート=23)では、すべてのモデルでパフォーマンスが相対的に低めのままでした。スタックアンサンブルは精度 = 0.67、想起率 = 0.66、F1スコア = 0.66 を報告し、これはXGBoost(F1 = 0.65)、LightGBM(F1 = 0.63)、およびディープニューラル分類器(F1 = 0.65)と類似しています。
mel(サポート=223)では、スタックアンサンブルは精度=0.66、リコール=0.97、F1スコア=0.78を達成しました。Deep Neural Classifierはメラノーマのリコール率も高い(0.96)を示しますが、比較的低い精度(~0.66)を示しており、偽陽性の数が多いことを示しています。これは、モデル間でメラノーマ検出の感度が高い一方で、精度は相対的に低いままであることを示しています。nvクラス(サポート=1341)では、すべてのモデルが100%の分類性能を示し、精度、リコール率、F1スコアが1.00となり、多数クラスで一貫して高い性能を示しました。vasc(サポート=28)では、スタックアンサンブルは精度=1.00、リコール=0.93、F1スコア=0.96を達成し、ディープニューラル分類器(F1=0.96)と同等で、XGBoost(F1=0.95)やLightGBM(F1=0.94)よりやや高くなっていました。
モデル比較
スタックアンサンブルモデルは、個々のモデルと比べてすべての指標で同等かそれ以上の性能を示しました。重要なのは、メラノーマ検出率の向上がリコール率(0.97)に反映されており、モデルの重要症例に対する感度の向上を示唆しています。マイノリティクラス(df、23サンプル、akiec、65サンプル)のパフォーマンス低下は、クラス分布がモデルのパフォーマンスに与える影響を示しています。重要なのは、全体の精度がすべてのサンプルで計算され、クラスの不均衡に影響を受け、nvクラス(支持度=1341)が優勢である点です。したがって、マイノリティクラスの精度や呼び戻しの変動は、報告される正確度の数値を説明できません。
既存の手法との比較
提案されたシステムの性能を比較するために、 表5 および 表6 の先行手法との比較を示します。提案されたスタックアンサンブルフレームワークは、これまで報告された手法と同等の精度で96%の精度を誇ります。さらに、提案されたモデルは他のアプローチでは必ずしも考慮されないマルチモーダル機能の統合と説明可能性も提供しています。 報告されたパフォーマンス値は、元の論文で報告された結果に基づいており、データセットの分割や評価方法の違いにより異なる場合があります。
主な観察
94%は全クラスの総合成績であり、多数クラス(nv、サポート=1341)の影響を受けます。したがって、少数クラス(例:DF、mel精度)のパフォーマンスは、報告された全体的な精度と矛盾するものではありません。スタックアンサンブルはクラスの中で最高の精度(96%)を達成し、良いパフォーマンスを発揮しました。異なるクラスの精度向上(例:メラノーマの再想起)は、マルチモデル手法の利用がマルチクラス皮膚病変の分類予測性能を向上させることをさらに示唆しています。
この点は、提案されたアプローチとISIC 2019データセット上の最先端モデルを比較することでさらに検証されます。ResNet50、EfficientNet-B0、DenseNet121、提案されたスタックアンサンブル法などの広く使われているディープラーニングアーキテクチャの性能分析は、ベースラインモデルを用いて行われました。各モデルは同じ実験条件下でテストされ、互いに比較可能となりました。 表6に示された結果は、提案されたモデルがすべての評価指標で既存モデルを上回っていることを示しています。提案されたスタックアンサンブルモデルは、 表6に示すように、他の従来型機械学習モデルや深層学習モデルと比較して96%の高精度とAUC値0.970を達成しています。さまざまな特徴表現の取得に関しては、EfficientNet-B0やDenseNet121のようなモデルは画像が与えられた場合に高いベースライン性能を示しますが、単独でこれらのタスクを処理するには不十分です。一方で、アンサンブル法は複数のモデルを組み合わせるために成功裏に適用され、より良い一般化と堅牢性を保証します。さらに、提案された方法は精度、リコール率、F1スコアの面で一貫して優れており、さまざまなクラスで堅牢であり、実際の臨床実践で活用できる有望な能力があることを示唆しています。すべてのモデルの再現性、透明性、信頼性の高い比較を促進するために、実験は標準プロトコルに従い、さまざまな性能基準と同じ検証条件で実施されました。
データの利用可能性:
本研究で使用されたHAM10000皮膚病変データセットは、Kaggle at https://www.kaggle.com/datasets/kmader/skin-cancer-mnist-ham10000 を通じて公開されています。データ前処理、モデル訓練、評価、解析に使用されるソースコードおよび実装ファイルは、論文提出とともに補足資料として提供されています。
| モデル開発のための環境設定 | |
| 構成要素 | 仕様 |
| 計算環境 | Google Colab(無料版) |
| CPU | 2コアCPU @ 2.20 GHz |
| GPU | NVIDIA T4 / P100 |
| RAM | 12GB |
| オペレーティングシステム | Ubuntu 22.04 |
| Python版 | Python 3.10 |
| ディープラーニングモデル | EfficientNet B4、DenseNet201、MobileNetV2 |
| 分類器 | XGBoost、LightGBM、DNC、スタックド・アンサンブル |
| コアライブラリ | TensorFlow 2.12、Keras 2.12、NumPy、Pandas |
| 説明可能性ツール | シャップ、ライム |
| データバランシング | スモート |
表1:システム構成。モデル開発や評価に使用されます。プロセッサの種類、メモリ、オペレーティングシステム、ソフトウェアフレームワークなどのハードウェアおよびソフトウェア環境の詳細が含まれています。
| 多クラス皮膚病変予測のための詳細な分類報告書 | ||||
| クラス | 精密さ | リコール | F1スコア | 支援 |
| XGBoost(命中率:92%) | ||||
| アキエク | 0.70 | 0.71 | 0.70 | 65 |
| BCC | 0.85 | 0.82 | 0.83 | 103 |
| BKL | 0.91 | 0.83 | 0.87 | 220 |
| DF | 0.65 | 0.65 | 0.65 | 23 |
| メル | 0.63 | 0.95 | 0.76 | 223 |
| NV | 1.00 | 1.00 | 1.00 | 1341 |
| VASC | 1.00 | 0.91 | 0.95 | 28 |
| LightGBM(命中率:90%) | ||||
| アキエク | 0.68 | 0.69 | 0.68 | 65 |
| BCC | 0.83 | 0.80 | 0.81 | 103 |
| BKL | 0.90 | 0.82 | 0.86 | 220 |
| DF | 0.63 | 0.63 | 0.63 | 23 |
| メル | 0.62 | 0.94 | 0.75 | 223 |
| NV | 1.00 | 1.00 | 1.00 | 1341 |
| VASC | 0.99 | 0.90 | 0.94 | 28 |
| ディープニューラルクラシファイア(精度:94%) | ||||
| アキエク | 0.95 | 0.9 | 0.92 | 65 |
| BCC | 0.9 | 0.94 | 0.92 | 103 |
| BKL | 0.97 | 0.92 | 0.94 | 220 |
| DF | 0.99 | 0.96 | 0.97 | 23 |
| メル | 0.99 | 0.9 | 0.94 | 223 |
| NV | 0.14 | 0.86 | 0.24 | 1341 |
| VASC | 0.10 | 0.86 | 0.18 | 28 |
| スタックド・アンサンブル(命中率:96%) | ||||
| アキエク | 0.72 | 0.73 | 0.72 | 65 |
| BCC | 0.87 | 0.84 | 0.85 | 103 |
| BKL | 0.93 | 0.85 | 0.89 | 220 |
| DF | 0.67 | 0.66 | 0.66 | 23 |
| メル | 0.66 | 0.97 | 0.78 | 223 |
| NV | 1.00 | 1.00 | 1.00 | 1341 |
| VASC | 1.00 | 0.93 | 0.96 | 28 |
表2:すべてのモデルにおける多クラス皮膚病変予測の詳細な分類性能指標。この表は、各皮膚病変カテゴリーごとにクラス別精度、リコール率、F1スコア、支持度を示しています。
| モデル | ハイパーパラメータ | 価値 |
| XGBoost | 学習速度 | デフォルト(0.3) |
| 木の数(n_estimators) | 100 | |
| 最大深度 | 6 | |
| サブサンプル | 1 | |
| Colsample_bytree | 1 | |
| 目的 | マルチ:ソフトマックス | |
| 評価指標 | mlogloss | |
| ライトGBM | 学習速度 | デフォルト(0.1) |
| 木の数(n_estimators) | 100 | |
| 最大深度 | -1 | |
| 葉の数 | 31 | |
| 特徴分数 | 1 | |
| バギング分数 | 1 | |
| 目的 | マルチクラス | |
| メートル法 | multi_logloss | |
| ディープニューラル分類器 | 層の数 | 3つの密層 |
| 層ごとのニューロン数 | 256, 128, 64 | |
| 活性化関数 | ReLU | |
| 出力の活性化 | ソフトマックス | |
| オプティマイザー | アダム | |
| 学習速度 | 0.001 | |
| バッチサイズ | 32 | |
| 時代数 | 30 | |
| ドロップアウト | 0.5 | |
| 損失関数 | 圏論的クロスエントロピー |
表3:ハイパーパラメータ設定。 学習速度、バッチサイズ、エポック数、最適化器構成など、モデルの訓練に使用されるハイパーパラメータ設定。
| 中央集権モデル vs 連邦モデル | |||
| トレーニング戦略 | 中央集権(スタックアンサンブル) | 連邦モデル | 差分(Δ) |
| 命中率(%) | 96 | 94 | 2 |
表4:中央集権型学習と統合型学習の比較。 中央集権型学習とフェデレーテッド型学習の比較、性能、プライバシー、計算特性の観点から。
| 参考文献:論文 | 方法 | モデルタイプ | 年 | 報告されたパフォーマンス | 主な貢献 |
| [2] | CNN皮膚がん検出フレームワーク | CNN | 2020 | 高精度(~90%+) | 初期のCNNに基づく分類 |
| [4] | ディープラーニングを用いたメラノーマ診断 | CNN | 2021 | 分類性能の向上 | 皮膚鏡画像解析 |
| [8] | チェックポイントを用いた最適化されたCNN | CNN | 2023 | 精度向上(~92–94%) | モデル最適化戦略 |
| [9] | ディープラーニング+XAIフレームワーク | CNN + 説明可能性 | 2023 | 解釈可能性の向上 | XAI統合 |
| [10] | 統合CNN特集 | CNN | 2023 | 競技成績(~90%+) | 特徴の組み合わせ |
| [18] | スキンセージXAI | CNN + XAI | 2023 | 信頼性と解釈可能性の向上 | 説明可能なAIシステム |
| この作品 | スタックドアンサンブル+マルチモーダル+XAI | アンサンブル | — | 96% | アンサンブル+解釈可能性+プライバシー意識 |
表5:既存の方法との比較。 標準評価指標を用いた既存の最先端手法と提案された手法の性能比較。
| 最先端モデル | ||||||
| モデル | データセット | 精度 | 精密さ | リコール | F1スコア | AUC |
| ResNet50 | ISIC 2019 | 0.842 | 0.835 | 0.828 | 0.831 | 0.912 |
| 効率的ネットB0 | ISIC 2019 | 0.874 | 0.868 | 0.861 | 0.864 | 0.935 |
| DenseNet121 | ISIC 2019 | 0.861 | 0.854 | 0.848 | 0.851 | 0.926 |
| XGBoost | ISIC 2019 | 0.92 | 0.905 | 0.892 | 0.898 | 0.948 |
| ライトGBM | ISIC 2019 | 0.9 | 0.889 | 0.88 | 0.884 | 0.94 |
| ディープニューラル分類器 | ISIC 2019 | 0.94 | 0.905 | 0.89 | 0.892 | 0.95 |
| 提案されたスタックドアンサンブル | ISIC 2019 | 0.96 | 0.94 | 0.93 | 0.935 | 0.97 |
表6:最先端モデルとの比較。 ISIC 2019データセットにおける他の最先端アーキテクチャとの積層アンサンブルモデルの比較評価。精度、精度、リコール率、F1スコア、AUCがパフォーマンスの測定に用いられます。提案モデルは他のモデルを上回っており、多クラス皮膚病変の分類においてその有効性を示しています。
現在のプロトコルは、皮膚病変を自動的に分類するための解釈可能でプライバシーに配慮したマルチモーダルフレームワークを作成するための再現可能なパイプラインを示しています。このプロトコルは、モデルの透明性を通じて診断性能を向上させる体系的なパターンに従い、皮膚鏡画像解析と臨床メタデータ、解釈可能な機械学習手法を組み合わせています。HAM10000皮膚病変データセットは公開されており、標準化された評価を可能にし、皮膚画像研究分野でのさらなる研究の再現性を促進しています16。画像前処理および正規化ステップはプロトコルの中で最も重要なステップの一つであり、特徴抽出やモデルの訓練前に皮膚鏡画像が標準化されることを保証します。皮膚鏡画像に見られるアーティファクトには、照明の不均一さ、髪の遮断、背景のノイズなどがあり、これらはモデルのパフォーマンスに影響を与えることがあります。画像を固定解像度にリサイズし正規化することでこれらの差を軽減でき、モデルは色素パターン、不規則な境界、非対称など臨床的に関心のある病変に焦点を当てることができます。深層学習に基づく皮膚科システムは、信頼性の高い性能を生み出すために適切な前処理が必要であり、これは自動皮膚がん分類2の先行研究で示されています。
多重畳み込みニューラルネットワーク(CNN)アーキテクチャに基づく深層特徴抽出ワークフローもこのプロセスの重要な一部です。この手法では、EfficientNet-B4、DenseNet201、MobileNetV2を用いて皮膚鏡画像の補完的な特徴を学習します。これらのアーキテクチャは、機能面や計算コストの面で異なる利点を持っています。提案されたプロトコルは、複数のモデルを用いて特徴を抽出し、それらを融合して、良性および悪性病変の特定に役立つ病変形態のグローバルなパターンや特徴を得ることができます。また、マルチモーダルの特徴融合段も存在します。皮膚科の臨床診断は、しばしば視覚的および文脈的な臨床情報(患者の年齢や性別、病変部位)で構成されます。このアーキテクチャは、皮膚鏡画像の特徴と文脈情報を融合させ、純粋に画像ベースのモデルに診断文脈を加えています。より実用的なマルチモーダルアプローチであり、分類システムを強化します。
また、分類モデルの予測を説明するために、特にモデル解釈可能性技術を中心とした説明可能な人工知能(XAI)技術も取り入れています。医療AIシステムにおいて説明可能性は不可欠です。臨床医は自動予測の根拠を理解し、診断プロセスに組み込む必要があります。モデル解釈可能性技術は各特徴がモデルの予測に与える影響を測定することで全体的な特徴重要度を得ますが、モデル解釈可能性技術はモデルの予測に寄与する画像領域を示すことで局所的な説明を導きます。これらの解釈可能性ツールは、モデルが偽の相関ではなく臨床的に関連した構造に焦点を当てていることを検証し、AI支援診断システムにおける信頼と透明性の向上につながります20。
使用されるデータセットや計算環境に応じて、プロトコルにはいくつかのバリエーションがあります。皮膚科データで典型的な問題はクラスの不均衡であり、病変カテゴリーごとのサンプル数が大きく異なる場合です。HAM10000データセットでは、他の病変カテゴリーよりも良性母斑の割合がはるかに高いです。この不均衡は、希少病変カテゴリーの合成少数派データを生成できる合成少数派過剰サンプリング技術(SMOTE)などのオーバーサンプリング技術によって緩和できます。データ増強、クラス重み付け、焦点損失などの他の戦略も、あまり一般的でない病変タイプに対するモデルの精度向上に役立つ可能性があります。
提案された枠組みにはさまざまな利点がありますが、いくつかの制約もあります。モデルはHAM10000データセット上で訓練されており、皮膚科で遭遇するすべての画像診断シナリオ、皮膚表現型、民族グループをカバーしているとは限りません。したがって、外部データセットを用いてフレームワークの汎化性能を評価することが重要です。さらに、複数のディープラーニングモデルやアンサンブル学習の組み込みは、モデルの計算負荷を増やし、リソースが限られた臨床環境では困難となる場合があります。
このフレームワークは、画像のみを使用する従来の深層学習手法に比べていくつかの進歩を示しています。マルチモーダルデータ統合により豊かな情報が得られ、アンサンブル学習は多様な分類器からの予測を集約することでモデルの堅牢性を高めます。さらに、説明可能なAI技術の応用により意思決定の解釈性が可能となり、医療分野のディープラーニングモデルにとって懸念事項となっています。実験的な皮膚科技術からの知見は、生物学的研究に不可欠な再現可能な画像診断および分析ワークフローを強調することで、このプロトコルに反映されています。三次元皮膚モデルや皮膚鏡画像手法などの高度な画像診断手法は、皮膚構造や疾患メカニズムのより深い理解を提供し、計算診断ツールの設計と改善を支えています(21,22)。
このプロトコルで示されたアプローチは、皮膚科の研究や臨床現場でさまざまな形で応用可能です。このアプローチは、早期のメラノーマ検出やその他の皮膚疾患のためのコンピュータ支援診断システムの開発、医師が大規模な皮膚画像データベースを閲覧できるようにし、テレ皮膚科システムの一部として利用して医師が遠隔で皮膚科医に相談できるようにすることに役立つ可能性があります。さらに、このシステムの説明可能性とプライバシー保護機能により、複数の機関がデータを共有しつつプライバシーを確保する多機関医療AI研究環境でも利用可能です。将来の研究には、より大規模で多機関にわたるデータセットの組み込み、追加の臨床特徴の追加、そしてここで概念的拡張として言及する連邦学習のようなプライバシー保護技術の探求が含まれる可能性があります。また、マルチモーダルモデルと画像のみおよびメタデータのみモデルを比較するアブレーション研究がないことも制約であり、今後各データソースの役割を評価する研究で取り上げていく予定です。
著者たちは何も明かすことはありません。利益相反はありません。著者らは、人工知能ツールは言語編集やフォーマット作成のみに使われていたと主張しています。すべての科学的内容、分析、解釈は著者によって開発・検証されました。
著者らは、学術指導と研究支援を提供してくれたMVNパルワル大学に感謝しています。著者らはまた、本研究の実験評価に使用された公開されているHAM10000皮膚病変データセットも認めています。
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| DenseNet201 CNNアーキテクチャ | IBM | https://arxiv.org/abs/1608.06993 | 画像分類のためのディープラーニングモデル |
| EfficientNet-B4 CNNアーキテクチャ | グーグル | https://arxiv.org/abs/1905.11946 | 画像分類のためのディープラーニングモデル |
| Googleコラボラトリープラットフォーム | グーグル | https://colab.research.google.com | クラウドベースの計算環境 |
| HAM10000 皮膚病変データセット | ハーバード・データバース | https://doi.org/10.7910/DVN/DBW86T | ダーモスコピー画像データセット |
| Keras ディープラーニングAPI | グーグル | バージョン2.x | ニューラルネットワークAPI |
| LIME説明可能性ライブラリ | LIMEプロジェクト | バージョン 0.x | モデル解釈可能性技術 |
| MobileNetV2 CNNアーキテクチャ | グーグル | https://arxiv.org/abs/1801.04381 | 画像分類のためのディープラーニングモデル |
| Matplotlib 可視化ライブラリ | Matplotlib開発チーム | バージョン3.x | プロット生成やパフォーマンス可視化に使用 |
| NVIDIA GPU | NVIDIA | RTXシリーズ | モデル訓練のための計算ハードウェア |
| NumPy 数値計算ライブラリ | NumPy 開発者 | バージョン1.x | データ分析ソフトウェア |
| OpenCV画像処理ライブラリ | OpenCV財団 | バージョン4.x | 画像処理ライブラリ |
| パンダスデータ分析ライブラリ | パンダス開発チーム | バージョン1.x | データ分析ソフトウェア |
| Pythonプログラミング環境 | Pythonソフトウェア財団 | バージョン 3.9+ | データ分析ソフトウェア |
| SHAP説明可能性ライブラリ | SHAPプロジェクト | バージョン 0.x | モデル解釈可能性技術 |
| SMOTEオーバーサンプリング技術 | imbalanced-learn プロジェクト | バージョン 0.x | 不均衡なデータセットを扱うためのクラスバランシング技術 |
| Scikit-learn機械学習ライブラリ | scikit-learnプロジェクト | バージョン1.x | 機械学習ライブラリ |
| TensorFlow ディープラーニングフレームワーク | グーグル | バージョン2.x | ディープラーニングフレームワーク |
Request permission to reuse the text or figures of this JoVE article
Request Permission