深層学習手法を用いた画像キャプション生成

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

深層学習手法を用いた画像キャプション生成

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

このプロトコルはCNN、RNN、ResNetを用いて画像キャプションを作成し、画像の活動、人物、物体、その他の要素の記述を抽出します。BLEU、CIDEr、METEOR、ROUGEの各指標で正当化されています。

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

画像キャプション生成は、画像を含む意味のあるテキスト説明を提供する試みです。抽出された情報は画像内の活動に関連しています。ResNet(Residual Network)は、画像の分類能力でよく知られており、深い階層的表現を開発しています。本論文の目的は、ResNetをさまざまなスマートフィルターと組み合わせて画像をより深く分類し、参照キャプションに関して非常に正確な本物で意味のある記述を生成することです。ここでは、スマートフィルタリング技術を用いて画像を強調し、CNNを用いて特徴を符号化し、モデルトレーニングを行い、その後RNN(再帰ニューラルネットワーク)で特徴を復号しています。ResNetは、特にオブジェクト分類や意味解析など、コンピュータビジョンのタスクにおいて非常に効果的なモデルです。ResNetは残差接続(スキッピング接続とも呼ばれ、深層学習における重要な問題であるゼロ勾配問題)でよく知られています。ここでは、MSCOCO(Microsoft Common Object in Context)ベンチマークを用いてモデルを訓練します。これは、さまざまなコンピュータビジョンタスクに役立つ参照注釈を含む大規模なデータセットです。ResNetは汎化能力の向上に役立ち、多様な画像に特に有用です。結果によると、ブルースコアはB1:0.579、B2:0.404、B3:0.279、B4:0.191です。流星:0.195;ルージュ:0.396;CIDEr:0.6。

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

コンピュータビジョンや自然言語処理の分野で、画像キャプションは画像とその描写される動作の記述を抽出する重要な作業です。モデルの目的は画像を理解し、その情報を意味のある文やキャプションに翻訳^{することです。}この手順は2つの重要な段階から成り立っています。1つ目は特徴抽出でCNNモデルが用いられます。2つ目はRNNを用いた画像記述であり、その間にはResNetが意味解析、シーケンス生成、注意メカニズムに使われます。ResNetはテンプレートベースのメソッドやDenseNetベースのモジュールとは大きく異なり、実行時間を短縮しつつパフォーマンスを向上させるスキップ接続を使用しています。視覚障害者の支援、ソーシャルメディアプラットフォームの強化、画像ベースの検索エンジンの最適化、画像ベースのAI(人工知能)など、画像キャプションには多くの応用^{があります。}

コンピュータビジョンにおいて、シーン認識とは、画像の一般的な文脈や環境、例えばビーチ、都市景観、森林、オフィスなどを特定し分類するプロセスです。オブジェクト認識が個々のアイテムに焦点を当てるのに対し、シーン認識はテクスチャ、空間配置、オブジェクトの関係を考慮してより大きな文脈を理解します。CNNやVision Transformers、Places365やImageNetのような大規模データセットで訓練された深層学習モデルを使用しています。用途には、セキュリティ監視、没入型体験のための拡張現実(ARおよびVR)、環境認識のためのロボティクス、ナビゲーション用の自動運転車などが含まれます。進歩にもかかわらず、視点の変化、遮蔽、照明の変化といった問題は、シーン認識をコンピュータビジョンや人工知能の研究でホットなテーマにしています。コンピュータビジョンのもう一つの根本的な問題はシーン認識です。

EnsCaptionは、生成・検索アンサンブル手法の改善を目的とした二重生成型敵対ネットワークモデルとして提案^{されました。}このレイアウトにより、既存の目標に沿ったキャプションを生成する、調和のとれた生殖を基盤とした画像キャプション手法が可能になります。一方、検索ベースの手法は位置またはグレーディングベースのモデルを用いて、画像ベースのクエリで他のモデルよりも正確に情報を抽出する最適なモデルを選択します。オブジェクト、アクティビティ、シーンなどの視覚的コンポーネントを用いて画像を「意味空間」にマッピングし、それらに対応する言語テンプレートにアライメントさせ^ました。画像に見られる相関関係や特性を用いて、このアプローチはフレーズを構築します。文は情報を豊かで凝縮し、微妙に表現します。テンプレートベースのキャプション生成は、常識的な知識を取り入れることで意味理解を向上させることで強化されました^。この技術により、テンプレートの範囲は直接的な画像特性を超え、推定された連想も含むようになりました。この研究は既存のオブジェクト検出データセットを用いて、各注釈付きカテゴリに対して16,000の常識的な文を抽出します。さらに、WordNetを用いて一般化が達成され、これまで見えなかった物体⁶に関する多数の事実を誘導できるようになりました。注意メカニズム、強化学習戦術、エンコーダー・デコーダーフレームワークなどのトピックを含む、画像のキャプション付けに関するディープラーニング技術の組織的な分類体系のレビューを提供します。物体の幻覚や文脈理解といった問題に取り組むとともに、一般的に使われるデータセットや評価基準も検討しています。著者らは、視覚言語の事前学習技術の改善やデータセットバイアスの低減など、さらなる研究の課題を指摘しています。畳み込みニューラルネットワークおよび再帰ニューラルネットワークに基づく意味解析アプローチが画像キャプ^{ションタスクに}探求されました。画像キャプションは最もよく知られた用途の一つであり、コンピューターが画像を表現する表現的なフレーズを作成することを可能にします。高水準で重要な意味記述を提供するために、この手順は単に物体や場面を特定する以上のものを含みます。また、それらの状態、特徴、相互作用を検証することも含まれます。画像キャプションの複雑さと難しさにもかかわらず、学者たちはこの分野で目覚ましい進歩を遂げています。本研究で取り上げた3つの主要なディープニューラルネットワークベースの画像キャプション技術は、CNN-RNNベース、CNN-CNNベース、強化学習フレームワークです。画像キャプション用のエンドツーエンドのトレーニング可能なモデルが導入され、コンピュータビジョンと自然言語処理を統合^{して画像の}一貫した記述を生成する8.キャプションを作成するためには、LSTMが画像を事前学習済みCNNが特徴ベクトルに符号化した後、単語の列にデコードするエンコーダ-デコーダフレームワークを使用します。複雑な風景の難しさなどの欠点はあるものの、視覚言語課題への論文の貢献は依然として^{重要です。}

ResNetは、提案された研究の画像キャプショニングモデルで使われる畳み込みニューラルネットワーク(CNN)で、入力画像から豊かな視覚情報を抽出しています。ResNetは画像を表す特徴ベクトルを生成するエンコーダとして機能し、通常はエンコーダ-デコーダアーキテクチャで使用されます。単語ごとの説明的なキャプションを生成するデコーダーはこれらの特徴を受け取り、しばしばLSTMやGRUなどのリカレントニューラルネットワーク(RNN)を用いて実装されます。注意機構を追加し、デコーダが各ワードを生成する際に画像の特定の領域に集中できるようにすることでパフォーマンスを向上させることができます。キャプションの正確性を最大化するために、モデルはクロスエントロピーなどの損失関数やCOCOのようなデータセットを用いてエンドツーエンドで訓練されます。転送学習とResNetの微調整により特徴抽出が向上し、モデルの強化や、幅広い画像に対して高品質で文脈に応じたキャプションを作成できるようになります。画像キャプションにおいて、ResNetは深層ニューラルネットワークでよく見られる消失勾配問題に効果的に対処できるため、他のモデルよりも好まれることが多いです。これは、バック伝播中の勾配フローを促進するスキップ接続を用いることで、性能を犠牲にせずに大幅に深いネットワークを訓練する新しい残差学習手法によって可能となっています。多層パーセプトロンは、完全接続型フィードフォワードニューラルネットワークであり、訓練可能層と関連付けられています。RNNはsoftmax層を用いてキャプションを復号し、候補キャプションを作成します。活性化関数はf(x)、順方向恒等関数はf(x) + x、xは単位元とみなされます。図 1に示されています。この場合、システムは学習中に残差ブロックを使ってモデルをキャリブレーションし、入力は重み接続とスキップ接続の両方を通過し、識別ショートカットとも呼ばれます。

図1:残留接続ネットワーク。この図は残留ネットワークのアーキテクチャを示し、勾配フローを改善し、ディープネットワークトレーニング中の勾配消失を緩和するスキップ接続を強調しています。この図の拡大版はこちらをクリックしてご覧ください。

P_l を出力と仮定します。Lはナンバーです。残留ブロックの記録;ReLUは1に近い場合に慣習ブロックであるべきですが、1でない場合は次のように計算できます:

(1)

ここで、b は確率変数、k は写像関数です。

(2)

ここで s_l は提案された系の生存確率とみなされます。

(3)

生存確率の得られる規則は次のようになります。

(4)

ここでS、_L は生存確率、Lは合計のノーであるべきです。ブロックの。

画像キャプションは、自然言語処理とコンピュータビジョンを組み合わせて、画像の説明的なテキストキャプションを作成する難しい作業です。そのためには、画像の視覚的内容を理解し解釈し、その文脈の中で一貫した文に翻訳する必要があります。この分野では、モデル評価や訓練において、広範かつ多様なデータセットを持つことが不可欠です。これらのデータセットは膨大な画像や関連する注釈を提供し、画像キャプションアルゴリズムの開発やテストに不可欠です。最も頻繁に使われるデータセットはMSCOCOとFlickr30kで、これらは数百万枚の画像を含み、画像処理においてさまざまな課題をもたらします。MSCOCOはFlickr30k11よりもはるかに大きいです。MS COCOデータセットは以下のセットに分割されています:学習用82,783枚、検証用40,504枚、テスト用40,775枚です。

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

実装はメインモデルであるResNet-152に加え、CNNとしてエンコーダ、RNNとしてデコーダ、そして Table of Materialsのリソースを組み合わせて行われました。

ResNet-152
ResNetは画像キャプションで特徴をより効率的に抽出するための基盤とされています。ResNetは消滅勾配問題に対処し効率的に解決するため、他のモデルよりも優れた訓練性能を提供しました。画像にさまざまな物体が現れることがあり、モデルはそれらの関係性を理解することでより良いキャプションを付ける必要があります。だからこそ、階層的特徴抽出とみなすことができます。ResNet-152は複雑なコンピュータビジョン作業も扱えます。このモデルの主な利点は、残差接続やスキップ接続を効果的に利用できることです。この方法は、勾配が消える問題に非常に効果的です。複雑で堅牢な特徴を学習してより高い精度を実現できます。ResNet-152は、計算コストを削減し、VGG-16など他のアーキテクチャよりも効率的であるボトルネック設計を採用しました。プリトレーニングモデルやオブジェクト検出、データセグメンテーションなど多様なタスクに適した顕著な転移学習の基盤を持っています。スキップ接続によりトレーニングが加速され、安定性も向上しました。自己注意メカニズムで逐次データを理解するトランスベースのモデルと比べて、ResNetはかなり異なります。トランスフォーマーベースのモデルは、テキストデータの深い理解のために大量のデータを必要とし、効果的な結果が得られますが、動作はやや遅くなります。ResNetを選んだ理由は、実行を高速化し結果を大幅に向上させるスキップ接続にあります。画像キャプションの分野では、ResNetは対象物や画像上で行われる動作を表現するための特徴を抽出するために使われます。ResNetはスキップ接続を活用した残留ネットワークを使用していました。ここで、残差ブロックは入力Zを参照して次のように計算できます:

(5)

ここでZは残差ブロックの入力とみなされます。
はバッチ正規化、畳み込み層、ReLu活性化を含む残留関数です。{x_i} は対応する層の学習重みと考えられます。Zはまたスキップ接続恒等式を定義し、これも勾配がゼロの問題を解決します。ResNetは一般的に画像から視覚的に特徴マッピングを行う特徴抽出器として使用されます。ここで、 I は特徴マップを高視覚的特徴表現Vに表現するための入力画像とみなされます。

(6)

特徴抽出の前に、特徴抽出を改善するために画像を前処理する必要があります。これはMSCOCOベンチマークから収集された生画像とみなされるため、前処理の最初のステップはサイズ変更と正規化です。

(7)

式10 (8)

ここでH^lは画像の高さ、W^lは画像の重さです。リ_サイズはリサイズされた画像です。

ピクセル値を範囲[-1, 1]または[0, 1]から正規化するために

式15 (9)

ここで μ はピクセルの平均値として考えられ σ は参照画像の標準偏差とみなされます。正規化された画像はさらに処理され特徴抽出が行われます。

式18 (10)

ここで式19 は特徴ベクトルとみなされます。行のキャプションがトークン化されると、数値形式に変換されます。

式20 (11)

もしキャプションが単語に分かれているなら、

式21 (12)

ここでは語彙が重要な役割を果たし、すべての単語は整数ベースのインデックスで一意に識別されます。

式22 (13)

ここで V_c は語彙関数として考えられます。すべての列が偶数の長さであることを保証しなければなりません。したがって、最大高さまたは理想的な長さは L_の最大値とみなされます。

式25 (14)

次にトークンを埋め込みます;

式26 (15)

j = 1,2,3, ... .., L_max の場合

ここで式28 はK次元の埋め込みベクトルとみなされます。ここでデコーダは確率モデルに基づく候補キャプション生成のためのキャプションの復号に使われます。

式29 (16)

ここでw_jはタイムスタンプjの作品、w_1:j-1はタイムスタンプJ-1で生成された単語、E_J-1は前の単語wj-1を含む埋め込み特徴です。各タイムスタンプで、ネットワークは次の単語や確率を語彙に基づいて予測します。

式35 (17)

ここでw_は出力重み、bは出力バイアスです。したがって、最大確率は次のように計算されます。

式38 (18)

候補キャプションの最大長さは、単語が受信またはやのような特別なトークンとして認識された時点で計算されます。ビームサーチはより良いキャプションを選ぶのにも有用で、次の列は次の通りです。

式39 (19)

式40 (20)

したがって、生成される候補キャプションは次の列です。式41

長短期記憶は一般的に配列生成に用いられます。LSTMはCNNを特徴抽出器として使い、意味のある文を作成するために単語を順番に生成します。LSTMは各タイムスタンプTでのフォーゲットゲートを計算します。

式42

ここで f_t は forget ゲート、σ は活性化関数、w_f は重み、b_f はバイアスとみなされます。

y_t は入力特徴ベクトル、h_t-1 は隠れた状態とみなされます。

式48 (22)

式49 (23)

J_tは入力、式106 は候補状態、w_jとw_cはそれぞれ入力と候補状態の重み、b_j と b_c はバイアスとみなされます。

式54 (24)

C_tは全状態として、C_t-1は以前の状態とみなされます。

式57 (25)

O_tは出力、w_o は重さ、b_oはバイアスとみなされます。隠れ状態とセル状態を初期化するには、以下の計算が必要です。

式61 (26)

式62 (27)

ここで、h_i と C_i はそれぞれ隠れ状態とセル状態、w_h と w_c はそれぞれ隠れセル状態と帆セル状態の重み、b_c と b_h はバイアス、k は特徴抽出器とみなされます。キャプションの順序は次のように計算されます:

式69 (28)

ここでTは生成されたキャプションの長さです。

254×254×3はリサイズまたは前処理された画像であり、Iは入力画像とみなされます。

式71 (29)

ここでWとbはそれぞれ重みとバイアス、Iは入力特徴、ReLUは活性化関数とみなされます。これは畳み込み層の計算です。ここでプーリング層は次のように計算できます:

式72 (30)

プール層を完成させた後、完全連結層は次のように写像できます:

式73 (31)

ここで w_、f 、 b、_f はそれぞれネットワークの重みとバイアスとして考えられます。

式74 (32)

式75 (33)

ここでNは空間領域、dは特徴の次元とみなされます。

式76 (34)

式77 (35)

ここで、w_h とb_hはそれぞれ隠れた状態の重みとバイアス、w_c とb_c はそれぞれセル状態の重みとバイアスとみなされます。キャプションは次のように生成できます:

式78 (36)

エンコーダとデコーダ
提案されたシステムはCNNを用いて機械翻訳用にデータを符号化します。この場合、入力と出力はどちらもシーケンスですが、長さが異なる場合があります。機械は一つずつベクトルを符号化し、復号します。ベクトルを出発点に使い、機械は符号化と復号を始め、最終的な条件付き確率分布まで計算を続けます。一例は以下の通りです:

式80 (37)

これが確率分布と考えられます。

システムはデータをベクトル画像の形で符号化でき、後から復号することも可能です。fc_n (I)は画像理解のための画像モデルと考えられます。

式83 (38)

式84 (39)

式85 (40)

S₁ はS₀の後続反復であり、S₂ はS₁の後続反復です。すべての入力は前の層の出力に依存していると言えるでしょう。画像はCNNによってベクトルに変換され、次の層に送られ、すべてのベクトルを巡ります。ここでは、RNNがベクトルを単語に復号した後、単語を意味のある文に順番に並べる注意機構が用いられます。

式86 (41)

ここでTは入力の長さです。

式87 (42)

式88 (43)

K₁、K₂、K₃、K₄、......、_{K T-1} は隠れた復号状態です。

図2:符号化および復号モデル。この図は、画像キャプションに用いられるエンコーダ–デコーダの枠組みを示し、画像の特徴がどのようにベクトル表現にエンコードされ、その後連続したテキスト記述へとデコードされるかを示しています。この図の拡大版はこちらをクリックしてご覧ください。

プロセスモデル
図3はトレーニングモジュールのフローチャートを示しており、データセットとそのグラウンドトゥルースキャプションが最初に読み込まれた様子を示しています。データをCNNエンコーディング用に正規化した後、ResNetモデルは抽出された特徴を用いて初期化され、学習されます。RNNと、開始・終了マーカーでタグ付けされたシステム固有の単語を使ってキャプションを解読できます。システムは最終的な単語が見つかれば抽出を完了し、Nは候補キャプションの総単語数です。

図3:トレーニングモデルのフローチャート。この図は、データ前処理、特徴抽出、モデル学習、最適化を含むモデルの訓練に伴う段階的なプロセスを示しています。この図の拡大版はこちらをクリックしてご覧ください。

テストモデルのフローチャートは図4に示されており、まずエンコーダとデコーダモデルを読み込み、その後ResNetモデルとキャプション抽出用の入力データを読み込みます。解読エラーがなければ、最初の単語から最後の単語まで推論を行うことができます。最終単語に到達した後、解読した単語を入手でき、注意機能を使って単語を意味のある順序に並べてキャプションを作成できます。訓練モデルのビームサイズは5で最大長さは20、バッチサイズは128で20エポークです。

図4:テストモデルのフローチャート。この図はテストワークフローを示しており、入力画像が訓練済みモデルで処理され、キャプション生成や性能評価がどのように行われるかを示しています。この図の拡大版はこちらをクリックしてご覧ください。

ResNet-152画像キャプションアルゴリズム
入力パラメータと出力パラメータを初期化し、ここで入力はMSCOCO画像の集合として取られます。I = (i₁, i₂, i₃, ....... i_N)注釈 J = (j₁, j₂, j₃, ......... j_N)出力はキャプションとして計算されます。最初のステップでは入力が必要で、その後アスペクト比を次のようにリサイズして画像を前処理します。

式92 (44)

ここでwとhは画像の元の幅と高さ、wは_新 、h はリサイズ寸法、_Ts はあらかじめ定義されたターゲットサイズ(_Ts = 224)とみなされ、max(w, h)は最大次元を定義し、アスペクト比を維持するためにスケーリングされています。

特徴抽出後、識別ブロックを次のように宣言する必要があります。

式100 (45)

次に、バッチサイズ、エポック数、隠れ層の重みとして_隠されたW、出力_層の出力W、そしてB_の高さ、Bバイ_アスなどのパラメータを初期化します。初期化が完了すると、巻込み層の出力を計算する必要があります。

式101 (46)

b_l が 1 に相当する場合、それは通常の ReLU ブロックとみなすことができます。しかし、もし b_l が 1 でないか 0 に等しくなければ、

式102 (47)

次に生存実現可能性を計算します。

式103 (48)

ここでF_K はシステムの生存実現可能性とみなされ、Kはモデル内のブロックの総数を表します。次に確率分布を計算します

式104 (49)

確率分布が計算されたら、それにアクセスしてデータをデコードするためのモデルを構築します。

式105 /9500

K₁、K₂、K₃、K₄、......、_{K T-1} は隠れた復号状態です。

モデルにアクセスする際には、候補キャプションを参照キャプションと比較して評価する注意メカニズムを適用する必要があります。最終指標はBLEU、METEOR、CIDEr、ROUGEを用いて評価できます。

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ソフトウェアおよび環境仕様
実験で主に使用されたプログラミング言語はPython 3.10でした。Visual Studio Codeを使って開発環境(VS Code)を構築しました。この研究で使用される重要なライブラリには、データシリアライズ用のPickle、並列処理用のマルチプロセッシング、ファイル処理用のglob、ディープラーニングモデル開発用のPyTorchがあります。ハードウェア構成は256GBのストレージ、8GBのRAM、そしてCUDA対応のNVIDIA GTXシリーズGPUで高速計算を行っていました。実験にはAMD Ryzen 5000シリーズプロセッサかIntel Core i5プロセッサを搭載したコンピュータが使用されました。実装に使用されたオペレーティングシステムはWindows 10/11でした。表 1の環境仕様表から簡単に理解できます。

...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

人工知能の分野では、画像にキャプションを付けることは難しい作業です。画像キャプションは多くの研究の対象となっており、鋭いまたは正確なキャプションは依然として最高レベルの精度を必要とします。多くの機械学習技術が画像キャプションの目的を達成するために用いられ、多くの研究でCNN、RNN、ResNet-152が用いられています。しかし、精度の向上と処理時間の短縮が必要です。提案されたシステムは、CNNをエンコーダ、RNNをデコーダ、Torch Visionをライブラリ、ResNetを主要な訓練モデルとして構築します。ResNetはスキップ接続技術を用いてレイヤーを活用し、Face-CapF、Face-Init、Face-Step、Face-CapL、CSPDN-BiLSTM-SelfAtt、Template-Augmentation、EfficientNetB0、EfficientNetB1、MobileNetV2など、他の従来モデルと比べてより良い性能を実現...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

著者らは、本論文で報告された研究に影響を与えた可能性のある競合する財政的利害関係や個人的な関係はないと述べています。

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究で使用されたベンチマークを提供してくれたMSCOCOデータセットの作成者に感謝します。著者らは、この研究に対して外部からの資金援助を受けていないと述べています。

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	AMD Ryzen 5000シリーズは、Zen 3アーキテクチャに基づいて開発されたAMDの高性能プロセッサのラインナップです。これらのプロセッサは、デスクトップやラップトップで、汎用コンピューティングやデータ処理、機械学習ワークフローなどの要求の高いタスクに広く使用されています。
GPU	NVIDIA	4.71933E+12	NVIDIA GeForce GTXは、NVIDIAによって開発されたグラフィックス処理ユニット（GPU）のシリーズで、ゲームプレイやディープラーニングや画像処理などの汎用コンピューティングタスクに広く使用されています。
Intel Core i5	Intel	BX8071514400F	Intel Core i5は、Intelによって開発された中級プロセッサシリーズで、汎用および計算タスクに個人用コンピューターで広く使用されています。
Python 3.10	Python Software Foundation	PEP 619	Pythonは、科学技術計算、データ分析、機械学習に広く使用されている高レベルの解釈型プログラミング言語です。その単純さ、読みやすさ、そして広範なライブラリのエコシステムで知られています。
PyTorch	Facebook	26.03-py3	PyTorchは、Meta Platforms（旧Facebook）によって開発されたオープンソースのディープラーニングフレームワークで、研究や産業でニューラルネットワークの構築とトレーニングに広く使用されています。
Visual Studio Code	Microsoft	None	Visual Studio Code（VS Code）は、Microsoftによって開発された軽量でオープンソースのコードエディタです。ソフトウェア開発、機械学習およびディープラーニングプロジェクトに広く使用されています。
Windows 11	Microsoft	KB5083631	Windows 11は、汎用コンピューティングやソフトウェア開発、機械学習タスクに広く使用されているMicrosoftによって開発されたオペレーティングシステムです。

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

深層学習手法を用いた画像キャプション生成

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles