Research Article

深層学習手法を用いた画像キャプション生成

June 12th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

このプロトコルはCNN、RNN、ResNetを用いて画像キャプションを作成し、画像の活動、人物、物体、その他の要素の記述を抽出します。BLEU、CIDEr、METEOR、ROUGEの各指標で正当化されています。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

画像キャプション生成は、画像を含む意味のあるテキスト説明を提供する試みです。抽出された情報は画像内の活動に関連しています。ResNet(Residual Network)は、画像の分類能力でよく知られており、深い階層的表現を開発しています。本論文の目的は、ResNetをさまざまなスマートフィルターと組み合わせて画像をより深く分類し、参照キャプションに関して非常に正確な本物で意味のある記述を生成することです。ここでは、スマートフィルタリング技術を用いて画像を強調し、CNNを用いて特徴を符号化し、モデルトレーニングを行い、その後RNN(再帰ニューラルネットワーク)で特徴を復号しています。ResNetは、特にオブジェクト分類や意味解析など、コンピュータビジョンのタスクにおいて非常に効果的なモデルです。ResNetは残差接続(スキッピング接続とも呼ばれ、深層学習における重要な問題であるゼロ勾配問題)でよく知られています。ここでは、MSCOCO(Microsoft Common Object in Context)ベンチマークを用いてモデルを訓練します。これは、さまざまなコンピュータビジョンタスクに役立つ参照注釈を含む大規模なデータセットです。ResNetは汎化能力の向上に役立ち、多様な画像に特に有用です。結果によると、ブルースコアはB1:0.579、B2:0.404、B3:0.279、B4:0.191です。流星:0.195;ルージュ:0.396;CIDEr:0.6。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

コンピュータビジョンや自然言語処理の分野で、画像キャプションは画像とその描写される動作の記述を抽出する重要な作業です。モデルの目的は画像を理解し、その情報を意味のある文やキャプションに翻訳することです。この手順は2つの重要な段階から成り立っています。1つ目は特徴抽出でCNNモデルが用いられます。2つ目はRNNを用いた画像記述であり、その間にはResNetが意味解析、シーケンス生成、注意メカニズムに使われます。ResNetはテンプレートベースのメソッドやDenseNetベースのモジュールとは大きく異なり、実行時間を短縮しつつパフォーマンスを向上させるスキップ接続を使用しています。視覚障害者の支援、ソーシャルメディアプラットフォームの強化、画像ベースの検索エンジンの最適化、画像ベースのAI(人工知能)など、画像キャプションには多くの応用があります。

コンピュータビジョンにおいて、シーン認識とは、画像の一般的な文脈や環境、例えばビーチ、都市景観、森林、オフィスなどを特定し分類するプロセスです。オブジェクト認識が個々のアイテムに焦点を当てるのに対し、シーン認識はテクスチャ、空間配置、オブジェクトの関係を考慮してより大きな文脈を理解します。CNNやVision Transformers、Places365やImageNetのような大規模データセットで訓練された深層学習モデルを使用しています。用途には、セキュリティ監視、没入型体験のための拡張現実(ARおよびVR)、環境認識のためのロボティクス、ナビゲーション用の自動運転車などが含まれます。進歩にもかかわらず、視点の変化、遮蔽、照明の変化といった問題は、シーン認識をコンピュータビジョンや人工知能の研究でホットなテーマにしています。コンピュータビジョンのもう一つの根本的な問題はシーン認識です。

EnsCaptionは、生成・検索アンサンブル手法の改善を目的とした二重生成型敵対ネットワークモデルとして提案されました。このレイアウトにより、既存の目標に沿ったキャプションを生成する、調和のとれた生殖を基盤とした画像キャプション手法が可能になります。一方、検索ベースの手法は位置またはグレーディングベースのモデルを用いて、画像ベースのクエリで他のモデルよりも正確に情報を抽出する最適なモデルを選択します。オブジェクト、アクティビティ、シーンなどの視覚的コンポーネントを用いて画像を「意味空間」にマッピングし、それらに対応する言語テンプレートにアライメントさせました。画像に見られる相関関係や特性を用いて、このアプローチはフレーズを構築します。文は情報を豊かで凝縮し、微妙に表現します。テンプレートベースのキャプション生成は、常識的な知識を取り入れることで意味理解を向上させることで強化されましたこの技術により、テンプレートの範囲は直接的な画像特性を超え、推定された連想も含むようになりました。この研究は既存のオブジェクト検出データセットを用いて、各注釈付きカテゴリに対して16,000の常識的な文を抽出します。さらに、WordNetを用いて一般化が達成され、これまで見えなかった物体6に関する多数の事実を誘導できるようになりました。注意メカニズム、強化学習戦術、エンコーダー・デコーダーフレームワークなどのトピックを含む、画像のキャプション付けに関するディープラーニング技術の組織的な分類体系のレビューを提供します。物体の幻覚や文脈理解といった問題に取り組むとともに、一般的に使われるデータセットや評価基準も検討しています。著者らは、視覚言語の事前学習技術の改善やデータセットバイアスの低減など、さらなる研究の課題を指摘しています。畳み込みニューラルネットワークおよび再帰ニューラルネットワークに基づく意味解析アプローチが画像キャプションタスクに探求されました。画像キャプションは最もよく知られた用途の一つであり、コンピューターが画像を表現する表現的なフレーズを作成することを可能にします。高水準で重要な意味記述を提供するために、この手順は単に物体や場面を特定する以上のものを含みます。また、それらの状態、特徴、相互作用を検証することも含まれます。画像キャプションの複雑さと難しさにもかかわらず、学者たちはこの分野で目覚ましい進歩を遂げています。本研究で取り上げた3つの主要なディープニューラルネットワークベースの画像キャプション技術は、CNN-RNNベース、CNN-CNNベース、強化学習フレームワークです。画像キャプション用のエンドツーエンドのトレーニング可能なモデルが導入され、コンピュータビジョンと自然言語処理を統合して画像の一貫した記述を生成する8.キャプションを作成するためには、LSTMが画像を事前学習済みCNNが特徴ベクトルに符号化した後、単語の列にデコードするエンコーダ-デコーダフレームワークを使用します。複雑な風景の難しさなどの欠点はあるものの、視覚言語課題への論文の貢献は依然として重要です。

ResNetは、提案された研究の画像キャプショニングモデルで使われる畳み込みニューラルネットワーク(CNN)で、入力画像から豊かな視覚情報を抽出しています。ResNetは画像を表す特徴ベクトルを生成するエンコーダとして機能し、通常はエンコーダ-デコーダアーキテクチャで使用されます。単語ごとの説明的なキャプションを生成するデコーダーはこれらの特徴を受け取り、しばしばLSTMやGRUなどのリカレントニューラルネットワーク(RNN)を用いて実装されます。注意機構を追加し、デコーダが各ワードを生成する際に画像の特定の領域に集中できるようにすることでパフォーマンスを向上させることができます。キャプションの正確性を最大化するために、モデルはクロスエントロピーなどの損失関数やCOCOのようなデータセットを用いてエンドツーエンドで訓練されます。転送学習とResNetの微調整により特徴抽出が向上し、モデルの強化や、幅広い画像に対して高品質で文脈に応じたキャプションを作成できるようになります。画像キャプションにおいて、ResNetは深層ニューラルネットワークでよく見られる消失勾配問題に効果的に対処できるため、他のモデルよりも好まれることが多いです。これは、バック伝播中の勾配フローを促進するスキップ接続を用いることで、性能を犠牲にせずに大幅に深いネットワークを訓練する新しい残差学習手法によって可能となっています。多層パーセプトロンは、完全接続型フィードフォワードニューラルネットワークであり、訓練可能層と関連付けられています。RNNはsoftmax層を用いてキャプションを復号し、候補キャプションを作成します。活性化関数はf(x)、順方向恒等関数はf(x) + x、xは単位元とみなされます。図 1に示されています。この場合、システムは学習中に残差ブロックを使ってモデルをキャリブレーションし、入力は重み接続とスキップ接続の両方を通過し、識別ショートカットとも呼ばれます。

figure-introduction-1
図1:残留接続ネットワーク。 この図は残留ネットワークのアーキテクチャを示し、勾配フローを改善し、ディープネットワークトレーニング中の勾配消失を緩和するスキップ接続を強調しています。 この図の拡大版はこちらをクリックしてご覧ください。

Pl を出力と仮定します。Lはナンバーです。残留ブロックの記録;ReLUは1に近い場合に慣習ブロックであるべきですが、1でない場合は次のように計算できます:

figure-introduction-2(1)

ここで、b は確率変数、k は写像関数です。

figure-introduction-3(2)

ここで sl は提案された系の生存確率とみなされます。

figure-introduction-4(3)

生存確率の得られる規則は次のようになります。

figure-introduction-5(4)

ここでS、L は生存確率、Lは合計のノーであるべきです。ブロックの。

画像キャプションは、自然言語処理とコンピュータビジョンを組み合わせて、画像の説明的なテキストキャプションを作成する難しい作業です。そのためには、画像の視覚的内容を理解し解釈し、その文脈の中で一貫した文に翻訳する必要があります。この分野では、モデル評価や訓練において、広範かつ多様なデータセットを持つことが不可欠です。これらのデータセットは膨大な画像や関連する注釈を提供し、画像キャプションアルゴリズムの開発やテストに不可欠です。最も頻繁に使われるデータセットはMSCOCOとFlickr30kで、これらは数百万枚の画像を含み、画像処理においてさまざまな課題をもたらします。MSCOCOはFlickr30k11よりもはるかに大きいです。MS COCOデータセットは以下のセットに分割されています:学習用82,783枚、検証用40,504枚、テスト用40,775枚です。

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

実装はメインモデルであるResNet-152に加え、CNNとしてエンコーダ、RNNとしてデコーダ、そして Table of Materialsのリソースを組み合わせて行われました。

ResNet-152
ResNetは画像キャプションで特徴をより効率的に抽出するための基盤とされています。ResNetは消滅勾配問題に対処し効率的に解決するため、他のモデルよりも優れた訓練性能を提供しました。画像にさまざまな物体が現れることがあり、モデルはそれらの関係性を理解することでより良いキャプションを付ける必要があります。だからこそ、階層的特徴抽出とみなすことができます。ResNet-152は複雑なコンピュータビジョン作業も扱えます。このモデルの主な利点は、残差接続やスキップ接続を効果的に利用できることです。この方法は、勾配が消える問題に非常に効果的です。複雑で堅牢な特徴を学習してより高い精度を実現できます。ResNet-152は、計算コストを削減し、VGG-16など他のアーキテクチャよりも効率的であるボトルネック設計を採用しました。プリトレーニングモデルやオブジェクト検出、データセグメンテーションなど多様なタスクに適した顕著な転移学習の基盤を持っています。スキップ接続によりトレーニングが加速され、安定性も向上しました。自己注意メカニズムで逐次データを理解するトランスベースのモデルと比べて、ResNetはかなり異なります。トランスフォーマーベースのモデルは、テキストデータの深い理解のために大量のデータを必要とし、効果的な結果が得られますが、動作はやや遅くなります。ResNetを選んだ理由は、実行を高速化し結果を大幅に向上させるスキップ接続にあります。画像キャプションの分野では、ResNetは対象物や画像上で行われる動作を表現するための特徴を抽出するために使われます。ResNetはスキップ接続を活用した残留ネットワークを使用していました。ここで、残差ブロックは入力Zを参照して次のように計算できます:

figure-protocol-1(5)

ここでZは残差ブロックの入力とみなされます。
figure-protocol-2はバッチ正規化、畳み込み層、ReLu活性化を含む残留関数です。{xi} は対応する層の学習重みと考えられます。Zはまたスキップ接続恒等式を定義し、これも勾配がゼロの問題を解決します。ResNetは一般的に画像から視覚的に特徴マッピングを行う特徴抽出器として使用されます。ここで、 I は特徴マップを高視覚的特徴表現Vに表現するための入力画像とみなされます。

figure-protocol-3(6)

特徴抽出の前に、特徴抽出を改善するために画像を前処理する必要があります。これはMSCOCOベンチマークから収集された生画像とみなされるため、前処理の最初のステップはサイズ変更と正規化です。

figure-protocol-4(7)

figure-protocol-5(8)

ここでHlは画像の高さ、Wlは画像の重さです。サイズはリサイズされた画像です。

ピクセル値を範囲[-1, 1]または[0, 1]から正規化するために

figure-protocol-6(9)

ここで μ はピクセルの平均値として考えられ σ は参照画像の標準偏差とみなされます。正規化された画像はさらに処理され特徴抽出が行われます。

figure-protocol-7(10)

ここで figure-protocol-8 は特徴ベクトルとみなされます。行のキャプションがトークン化されると、数値形式に変換されます。

figure-protocol-9(11)

もしキャプションが単語に分かれているなら、

figure-protocol-10(12)

ここでは語彙が重要な役割を果たし、すべての単語は整数ベースのインデックスで一意に識別されます。

figure-protocol-11(13)

ここで Vc は語彙関数として考えられます。すべての列が偶数の長さであることを保証しなければなりません。したがって、最大高さまたは理想的な長さは Lの最大値とみなされます。

figure-protocol-12(14)

次にトークンを埋め込みます;

figure-protocol-13(15)

j = 1,2,3, ... .., Lmax の場合

ここで figure-protocol-14 はK次元の埋め込みベクトルとみなされます。ここでデコーダは確率モデルに基づく候補キャプション生成のためのキャプションの復号に使われます。

figure-protocol-15(16)

ここでwjはタイムスタンプjの作品、w1:j-1はタイムスタンプJ-1で生成された単語、EJ-1は前の単語wj-1を含む埋め込み特徴です。各タイムスタンプで、ネットワークは次の単語や確率を語彙に基づいて予測します。

figure-protocol-16(17)

ここでw出力重み、bは出力バイアスです。したがって、最大確率は次のように計算されます。

figure-protocol-17(18)

候補キャプションの最大長さは、単語が受信またはやのような特別なトークンとして認識された時点で計算されます。ビームサーチはより良いキャプションを選ぶのにも有用で、次の列は次の通りです。

figure-protocol-18(19)

figure-protocol-19(20)

したがって、生成される候補キャプションは次の列です。 figure-protocol-20

長短期記憶は一般的に配列生成に用いられます。LSTMはCNNを特徴抽出器として使い、意味のある文を作成するために単語を順番に生成します。LSTMは各タイムスタンプTでのフォーゲットゲートを計算します。

figure-protocol-21

ここで ft は forget ゲート、σ は活性化関数、wf は重み、bf はバイアスとみなされます。

yt は入力特徴ベクトル、ht-1 は隠れた状態とみなされます。

figure-protocol-22(22)

figure-protocol-23(23)

Jtは入力、figure-protocol-24は候補状態、wjとwcはそれぞれ入力と候補状態の重み、bj と bc はバイアスとみなされます。

figure-protocol-25(24)

Ctは全状態として、Ct-1は以前の状態とみなされます。

figure-protocol-26(25)

Otは出力、wo は重さ、boはバイアスとみなされます。隠れ状態とセル状態を初期化するには、以下の計算が必要です。

figure-protocol-27(26)

figure-protocol-28(27)

ここで、hi Ci はそれぞれ隠れ状態とセル状態、wh wc はそれぞれ隠れセル状態と帆セル状態の重み、bc bh はバイアス、k は特徴抽出器とみなされます。キャプションの順序は次のように計算されます:

figure-protocol-29(28)

ここでTは生成されたキャプションの長さです。

254×254×3はリサイズまたは前処理された画像であり、Iは入力画像とみなされます。

figure-protocol-30(29)

ここでWとbはそれぞれ重みとバイアス、Iは入力特徴、ReLUは活性化関数とみなされます。これは畳み込み層の計算です。ここでプーリング層は次のように計算できます:

figure-protocol-31(30)

プール層を完成させた後、完全連結層は次のように写像できます:

figure-protocol-32(31)

ここで w、f b、f はそれぞれネットワークの重みとバイアスとして考えられます。

figure-protocol-33(32)

figure-protocol-34(33)

ここでNは空間領域、dは特徴の次元とみなされます。

figure-protocol-35(34)

figure-protocol-36(35)

ここで、wh bhはそれぞれ隠れた状態の重みとバイアス、wc bc はそれぞれセル状態の重みとバイアスとみなされます。キャプションは次のように生成できます:

figure-protocol-37(36)

エンコーダとデコーダ
提案されたシステムはCNNを用いて機械翻訳用にデータを符号化します。この場合、入力と出力はどちらもシーケンスですが、長さが異なる場合があります。機械は一つずつベクトルを符号化し、復号します。ベクトルを出発点に使い、機械は符号化と復号を始め、最終的な条件付き確率分布まで計算を続けます。一例は以下の通りです:

figure-protocol-38(37)

これが確率分布と考えられます。

システムはデータをベクトル画像の形で符号化でき、後から復号することも可能です。fcn (I)は画像理解のための画像モデルと考えられます。

figure-protocol-39(38)

figure-protocol-40(39)

figure-protocol-41(40)

S1 はS0の後続反復であり、S2 はS1の後続反復です。すべての入力は前の層の出力に依存していると言えるでしょう。画像はCNNによってベクトルに変換され、次の層に送られ、すべてのベクトルを巡ります。ここでは、RNNがベクトルを単語に復号した後、単語を意味のある文に順番に並べる注意機構が用いられます。

figure-protocol-42(41)

ここでTは入力の長さです。

figure-protocol-43(42)

figure-protocol-44(43)

K1K2K3K4、......、K T-1 は隠れた復号状態です。

figure-protocol-45
図2:符号化および復号モデル。 この図は、画像キャプションに用いられるエンコーダ–デコーダの枠組みを示し、画像の特徴がどのようにベクトル表現にエンコードされ、その後連続したテキスト記述へとデコードされるかを示しています。 この図の拡大版はこちらをクリックしてご覧ください。

プロセスモデル
図3はトレーニングモジュールのフローチャートを示しており、データセットとそのグラウンドトゥルースキャプションが最初に読み込まれた様子を示しています。データをCNNエンコーディング用に正規化した後、ResNetモデルは抽出された特徴を用いて初期化され、学習されます。RNNと、開始・終了マーカーでタグ付けされたシステム固有の単語を使ってキャプションを解読できます。システムは最終的な単語が見つかれば抽出を完了し、Nは候補キャプションの総単語数です。

figure-protocol-46
図3:トレーニングモデルのフローチャート。 この図は、データ前処理、特徴抽出、モデル学習、最適化を含むモデルの訓練に伴う段階的なプロセスを示しています。 この図の拡大版はこちらをクリックしてご覧ください。

テストモデルのフローチャートは 図4に示されており、まずエンコーダとデコーダモデルを読み込み、その後ResNetモデルとキャプション抽出用の入力データを読み込みます。解読エラーがなければ、最初の単語から最後の単語まで推論を行うことができます。最終単語に到達した後、解読した単語を入手でき、注意機能を使って単語を意味のある順序に並べてキャプションを作成できます。訓練モデルのビームサイズは5で最大長さは20、バッチサイズは128で20エポークです。

figure-protocol-47
図4:テストモデルのフローチャート。 この図はテストワークフローを示しており、入力画像が訓練済みモデルで処理され、キャプション生成や性能評価がどのように行われるかを示しています。 この図の拡大版はこちらをクリックしてご覧ください。

ResNet-152画像キャプションアルゴリズム
入力パラメータと出力パラメータを初期化し、ここで入力はMSCOCO画像の集合として取られます。I = (i1, i2, i3, ....... iN)注釈 J = (j1, j2, j3, ......... jN)出力はキャプションとして計算されます。最初のステップでは入力が必要で、その後アスペクト比を次のようにリサイズして画像を前処理します。

figure-protocol-48(44)

ここでwとhは画像の元の幅と高さ、wは h はリサイズ寸法、Ts はあらかじめ定義されたターゲットサイズ(Ts = 224)とみなされ、max(w, h)は最大次元を定義し、アスペクト比を維持するためにスケーリングされています。

特徴抽出後、識別ブロックを次のように宣言する必要があります。

figure-protocol-49(45)

次に、バッチサイズ、エポック数、隠れ層の重みとしてされたW、出力層の出力W、そしてBの高さ、Bバイアスなどのパラメータを初期化します。初期化が完了すると、巻込み層の出力を計算する必要があります。

figure-protocol-50(46)

bl が 1 に相当する場合、それは通常の ReLU ブロックとみなすことができます。しかし、もし bl が 1 でないか 0 に等しくなければ、

figure-protocol-51(47)

次に生存実現可能性を計算します。

figure-protocol-52(48)

ここでFK はシステムの生存実現可能性とみなされ、Kはモデル内のブロックの総数を表します。次に確率分布を計算します

figure-protocol-53(49)

確率分布が計算されたら、それにアクセスしてデータをデコードするためのモデルを構築します。

figure-protocol-54/9500

K1K2K3K4、......、K T-1 は隠れた復号状態です。

モデルにアクセスする際には、候補キャプションを参照キャプションと比較して評価する注意メカニズムを適用する必要があります。最終指標はBLEU、METEOR、CIDEr、ROUGEを用いて評価できます。

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ソフトウェアおよび環境仕様
実験で主に使用されたプログラミング言語はPython 3.10でした。Visual Studio Codeを使って開発環境(VS Code)を構築しました。この研究で使用される重要なライブラリには、データシリアライズ用のPickle、並列処理用のマルチプロセッシング、ファイル処理用のglob、ディープラーニングモデル開発用のPyTorchがあります。ハードウェア構成は256GBのストレージ、8GBのRAM、そしてCUDA対応のNVIDIA GTXシリーズGPUで高速計算を行っていました。実験にはAMD Ryzen 5000シリーズプロセッサかIntel Core i5プロセッサを搭載したコンピュータが使用されました。実装に使用されたオペレーティングシステムはWindows 10/11でした。表 1の環境仕様表から簡単に理解できます。

素材仕様
GPUNVIDIA GTXシリーズ
図書館PyTorch、Pickle、マルチプログラミング、Glob
OSWindows 10/11
プロセッサIntel Core i5/AMD Ryzen 5000シリーズ
番組編成Python 3.10
RAM8GB
ソフトウェアVisual Studio Code
保管256GB

表1:環境仕様。 この表は、実装で使用される資料とその仕様(プログラミング言語、ライブラリ、ハードウェア仕様など)をまとめたものです。

定性的分析
屋外・屋内シーン、単純・複雑シーンなどの異なるカテゴリーに基づく定性的分析によると、モデルは画像の記述においてやや効率的です。B1、B2、B3、B4はBLEUスコアとして扱われます。CはCIDEr、MはMETEOR、RはROUGEとみなされます。B1が0.579、B2が0.404、B3が0.279、B4が0.191、METEORが0.195、ROUGEが0.396、CIDErが0.6である任意の行列に対して、結果は 表2に示されるように1で表されます。

行列MSCOCOスコア
BLEU10.579
ブルー20.404
BLEU30.279
ブルー40.191
流星0.195
ルージュ0.396
CIDEr0.6

表2:実験結果。 この表は、BLEU、METEOR、ROUGE、CIDErなどの評価指標を用いて提案モデルのパフォーマンスをまとめ、キャプション品質の定量的評価を提供します。

figure-results-1
図5:実験結果。 この図は評価指標のグラフを示し、モデルの異なる指標間の比較性能を示しています。 この図の拡大版はこちらをクリックしてご覧ください。

結果の比較は表3、4、5に示されています以下の参考文献は表3、3、4:1011121314に記載されています

方法B1B2B3B4
フェイスキャップ [10]0.57130.36510.24070.1652
フェイス・イニット [10]0.56630.36490.2430.1686
フェイスキャップ [11]0.5890.37890.25070.1719
フェイスステップ [10]0.58430.37560.24780.1696
CSPDN-BiLSTM-SelfAtt [12]0.60120.39920.27030.1921
CNN+RNN+ResNet-152(提案中)0.5790.4040.2790.191

表3:BLEUスコアの結果比較。この表は、異なるモデルや構成間でのBLEUスコア結果を比較し、キャプション生成精度の向上を強調しています。

表3および表4に示されているように、CSPDN-BiLSTM-SelfAtt12はB1およびB4でより良い性能を発揮し、一方でCNN+RNN+ResNet-152はB2およびB3でより良い性能を示します。CNN+RNN+ResNet-152はROUGEよりもMETERやCIDErより優れています。つまり、両方の方法はBLEUスコアは同じですが、提案された方が他の2つの指標よりも優れています。したがって、結果の全体的な優位性は提案された方法によって達成されます。Face-CapF10、Face-Init10、Face-CapL11、Face-Step10は、FlickrFace11Kデータセットに基づく画像キャプション作成を行っています。しかし、大規模なデータセットであっても結果は比較的芳しくありません。提案モデルは有意に高いCIDErスコアを持っていますが、この差異は評価手順、データセット準備、実装の詳細の違いによるものです。

方法流星CIDErルージュ
フェイスキャップ [10]0.17190.23040.4476
フェイス・イニット [10]0.17170.23130.4484
フェイスキャップ [11]0.17440.24720.4547
フェイスステップ [10]0.17450.22830.4504
CSPDN-BiLSTM-SelfAtt [12]0.19320.26170.4793
CNN+RNN+ResNet-152(提案中)0.1950.60.396

表4:METEOR、CIDEr、ROUGEに関する結果比較。 この表は、生成されたキャプションの意味論的および構文的品質を評価するための複数の評価指標の比較分析を提供します。

方法B1B2B3B4流星ルージュ
テンプレート・増強 [13]0.2380.1090.050.0220.0960.249
EfficientNetB0 [14]0.28270.13250.05880.02660.26610.3609
EfficientNetB1 [14]0.2890.14040.06420.02860.2710.3718
ResNet50 [14]0.26370.12170.04960.02070.24370.3423
MobileNetV2 [14]0.21060.0640.02150.0090.17940.2606
CNN+RNN+ResNet-152(提案中)0.5790.4040.2790.1910.1950.396

表5:BLEU、METEOR、ROUGEスコアの結果比較。 この表は、モデルの全体的な効果を示すための主要な評価指標の統合比較を示しています。

表5によると、EfficientNetB114はMETEORに優れていますが、CNN+RNN+ResNet-152はB1-B 4およびROUGEに対して優れています全体として、提案された結果は、前述の手法と比較してすべてのBLEUおよびROUGE指標において優れています。

データの利用可能性:
本研究に関連するすべての生データおよびコーディングファイルは補足ファイルで利用可能です。

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

人工知能の分野では、画像にキャプションを付けることは難しい作業です。画像キャプションは多くの研究の対象となっており、鋭いまたは正確なキャプションは依然として最高レベルの精度を必要とします。多くの機械学習技術が画像キャプションの目的を達成するために用いられ、多くの研究でCNN、RNN、ResNet-152が用いられています。しかし、精度の向上と処理時間の短縮が必要です。提案されたシステムは、CNNをエンコーダ、RNNをデコーダ、Torch Visionをライブラリ、ResNetを主要な訓練モデルとして構築します。ResNetはスキップ接続技術を用いてレイヤーを活用し、Face-CapF、Face-Init、Face-Step、Face-CapL、CSPDN-BiLSTM-SelfAtt、Template-Augmentation、EfficientNetB0、EfficientNetB1、MobileNetV2など、他の従来モデルと比べてより良い性能を実現しています。

提案された作業の重要なステップは、スマートフィルターを使って画像をクリアし、その後すべての主要なステップで特徴抽出を行うことです。正確な特徴抽出がなければモデルの目標を達成することはできず、システムが特徴を適切に抽出できなければ、メトリックスコアの精度に影響が出ます。特徴ベクトルと注意メカニズムの詳細な分析を伴った訓練フェーズは、テストデータの解読に重要な役割を果たしました。さらに、この作業にはもう一つ重要なステップがあり、それはボーカルの更新です。データのテスト中に新しい単語が出た場合、それらの単語は辞書に追加されてモデルのパフォーマンスを向上させます。これらの重要なステップは、テンプレート増強法などの前述モデルよりも高い精度を得る上で重要な役割を果たしました。システムはMSCOCOベンチマーク用モデルを訓練し、画像キャプションのより効果的なモデルを得ました。

テストデータサイズが増えれば、画像に関連する新しい単語を導入することが可能です。また、キャプション生成時に無関係になることもあり、その場合はモデルで用いられている注意メカニズムで処理できます。語彙は注意メカニズムを通じて更新でき、後の評価に有効です。これは自己学習または例外処理とみなすことができます。モデルはMSCOCOで訓練されており、MSCOCOには数千枚の実世界の画像が含まれているため、各推論ごとに更新が必要なオブジェクトが非常に多い可能性があります。

この研究の欠点の一つは、現代のトレーニング用データセットと比較して、特に白黒や低品質な歴史画像では、視覚的特徴、コントラスト、質感の違いにより、はるかに古い画像で性能が低下する可能性があることです。画像の解像度が低い場合、正確な特徴の抽出が難しくなり、この場合ResNet-152は符号化フェーズを劣化させる可能性があります。また、あまりにも多くの古い画像では性能が悪く、特徴ベクトルが不十分または損傷しているため、それらの画像は古代のものとなっています。制限としては、単一データセットの評価や相互検証の欠如があります。

従来の手法と比べて、提案されたモデルは特徴抽出を強化し、画像キャプション生成の性能を向上させるため優れています。スマートフィルタリングは特徴抽出や符号化フェーズを改善し、モデルをより良く構築します。ResNet-152はまた、訓練中の時間を活用するスキップ接続も使用しています。そのため、EfficientNetB014のような他のモデルよりも実行速度がはるかに速いのです。注意メカニズムもモデルのパフォーマンス向上の主要な要因です。

この技術は画像検索システム、自動監視、視覚障害者向けの支援技術などに活用可能です。人工知能が急速に進化する中で、画像検索システムの改善が必要であり、この技術もその一因となるでしょう。このモデルでは、視覚障害者が世界を話すために視覚的に見る助けを得ることができます。画像キャプションにはいくつかの重要かつ潜在的な応用があります。

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

著者らは、本論文で報告された研究に影響を与えた可能性のある競合する財政的利害関係や個人的な関係はないと述べています。

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究で使用されたベンチマークを提供してくれたMSCOCOデータセットの作成者に感謝します。著者らは、この研究に対して外部からの資金援助を受けていないと述べています。

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
AMD Ryzen 5000シリーズAMD100-1000000059WOFAMD Ryzen 5000シリーズは、Zen 3アーキテクチャをベースにAMDが開発した高性能プロセッサのラインです。これらのプロセッサは、デスクトップやノートパソコンで汎用コンピューティングだけでなく、データ処理や機械学習ワークフローのような要求の高いタスクにも広く使われています。
GPUNVIDIA 4.71933E+12NVIDIA GeForce GTXは、NVIDIAが開発した一連のグラフィックス処理ユニット(GPU)で、ゲームだけでなく、ディープラーニングや画像処理などの汎用コンピューティングにも広く使用されています。
Intel Core i5インテルBX8071514400FIntel Core i5は、Intelが開発したミッドレンジプロセッサシリーズで、パーソナルコンピュータで汎用および計算作業の両方で広く使用されています。
Python 3.10Pythonソフトウェア財団PEP 619Pythonは、科学計算、データ分析、機械学習で広く使われている高水準のインタプリタ付きプログラミング言語です。そのシンプルさ、可読性、そして広範なライブラリのエコシステムで知られています。
パイトーチフェイスブック26.03-py3PyTorchはMeta Platforms(旧Facebook)が開発したオープンソースのディープラーニングフレームワークで、研究や産業界でのニューラルネットワークの構築やトレーニングに広く利用されています。
Visual Studio Codeマイクロソフト全くありませんVisual Studio Code(VS Code)は、Microsoftが開発した軽量でオープンソースのコードエディタです。機械学習や深層学習プロジェクトを含むソフトウェア開発に広く利用されています。
Windows 11マイクロソフトKB5083631Windows 11はMicrosoftが開発したオペレーティングシステムで、一般的なコンピューティングだけでなくソフトウェア開発や機械学習のタスクにも広く利用されています。

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Image Caption GenerationDeep LearningResNet ModelSmart FilteringFeature EncodingCNN EncoderRNN DecoderObject ClassificationSemantic AnalysisMSCOCO Dataset

Related Articles