利用深度学习方法生成图像说明

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

利用深度学习方法生成图像说明

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

该协议利用卷积神经网络（CNN）、RNN和ResNet进行图像说明，提取图像活动、人物、物体及其他元素的描述。它已经用BLEU、CIDEr、METEOR和ROUGE等指标来证明了这一点。

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

图片说明生成是一项旨在提供有意义的文本描述的尝试，其中包含图像。提取的信息与图像中的活动相关。ResNet（残差网络）以其图像分类能力而闻名，开发了深度层次表示。本文旨在利用ResNet配合多种智能滤镜，对图像进行更深入的分类，从而生成真实且有意义的描述，且对参考说明高度精确。该研究利用智能滤波技术增强图像，利用卷积神经网络编码特征，进行模型训练，随后使用RNN（循环神经网络）来解码特征。ResNet 是计算机视觉任务中非常有效的模型，尤其是对象分类和语义分析。ResNet以剩余连接闻名，这种连接也被称为跳跃连接，解决了消失梯度问题，这是深度学习中的关键问题。这里使用MSCOCO（Microsoft上下文中的通用对象）基准测试来训练模型，模型是一个包含参考注释的大数据集，适用于各种计算机视觉任务。ResNet有助于增强泛化能力，这对多样化的图像尤为有用。根据结果，BLUE分数为B1：0.579，B2：0.404，B3：0.279，B4：0.191;流星：0.195;胭脂：0.396;CIDEr：0.6。

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

在计算机视觉和自然语言处理领域，图像字幕是一项关键任务，用于提取图像及其所描绘动作的描述。模型的目的是理解图像并将信息转化为有意义的句子或说明。整个过程包括两个重要阶段：第一阶段是特征提取，使用卷积神经网络模型;第二是利用RNN进行图像描述;中间则使用ResNet进行语义分析、序列生成和注意力机制。ResNet 与基于模板的方法或基于 DenseNet 的模块非常不同，因为它使用跳过连接，从而减少执行时间并提升性能。图片说明有许多应用，包括帮助视障人士、推动社交媒体平台、优化基于图片的搜索引擎、基于图片的人工智能（AI）等。

在计算机视觉中，场景识别是识别和分类图像的一般上下文或环境的过程，例如海滩、城市景观、森林或办公室。与专注于单个物体的物体识别不同，场景识别考虑纹理、空间排列和物体关系以理解更大的背景。它使用卷积神经网络（CNN）和视觉变换器（Vision Transformers），这些深度学习模型是在Places365和ImageNet等大型数据集上训练的。应用包括安全监控、增强现实和虚拟现实（AR和VR）带来沉浸式体验，机器人技术用于环境感知，以及自动驾驶车辆用于导航。尽管取得了进步，视角变化、遮挡和光照变化等问题仍使场景识别成为计算机视觉和人工智能研究中的热门话题。计算机视觉中的另一个根本问题是场景识别。

EnsCaption是一种双生成对抗网络模型，被提出用于改进生成-检索集合技术³。这种布局支持和谐、以生育为基础的图片字幕方法，生成与现有目标相符的字幕。而基于检索的技术则使用基于位置或分级的模型来选择比图像查询中其他模型更精确地提取信息的最佳模型。引入了图像映射到“意义空间”的方法，使用视觉组件如对象、活动和场景，然后与相应的口头模板对齐⁴.利用图像中的相关性和特质，方法构建短语。句子以丰富、浓缩且微妙的方式表达信息。基于模板的字幕生成通过融入常识知识以提升语义理解得到提升⁵.该技术将模板的覆盖范围从直接图像特征扩展到涵盖推断的关联。该工作利用现有的对象检测数据集，为每个注释类别提取16,000条常识性陈述。此外，利用WordNet实现了推广，使得关于此前未见对象⁶的大量事实得以归纳。提供深度学习图像字幕技术的有组织分类综述，包括注意力机制、强化学习策略和编码-解码框架等主题。除了解决物体幻觉和语境理解等问题外，还考察了常用数据集和评估标准。作者指出了进一步研究的领域，如改进视觉语言预训练技术和减少数据集偏倚。基于卷积神经网络和循环神经网络的语义分析方法被探索用于图像字幕任务⁷.图片字幕是最著名的应用之一，它允许计算机生成富有感染力的短语，封装图像。为了提供高层次且显著的语义描述，这一过程不仅仅是识别对象和场景;它还包括考察它们的状态、特征和相互作用。尽管图片说明本身复杂且困难，学者们在该领域取得了显著进展。本研究涵盖的三种主要基于深度神经网络的图像字幕技术是基于CNN-RNN的、基于CNN-CNN的框架和强化学习框架。引入了端到端可训练的图像说明模型，集成计算机视觉与自然语言处理，生成连贯的图像描述⁸。为了创建说明，它使用编码器-解码器框架，其中LSTM在预训练的CNN将其编码为特征向量后，将图像解码成一串单词。尽管存在缺点，包括复杂场景的困难，但论文在视觉语言任务上的贡献依然^{至关重要。}

ResNet 是卷积神经网络（CNN），用于本研究的图像字幕模型中提取丰富的视觉信息。ResNet作为编码器，生成表示图像的特征矢量，通常用于编码-解码器架构中。解码器能够逐词生成描述性字幕，接收这些功能，通常通过循环神经网络（RNN），如LSTM或GRU实现。还可以添加注意力机制，使解码器在生成每个词时能够专注于图像的特定区域，从而提升性能。为了最大化标题准确性，模型采用交叉熵等损失函数和COCO等数据集进行端到端训练。迁移学习和ResNet微调可以增强特征提取，进一步强化模型，使其能够在多种图像中生成高质量、符合上下文的说明。在图像字幕方面，ResNet常被优先采用，因为它有效解决了深度神经网络中常见的消失梯度问题。这得益于其新颖的残差学习方法，通过使用跳跃连接促进梯度流动，在反向传播过程中训练更深的网络而不牺牲性能。多层感知器是一个完全连接的前馈神经网络，与可训练层相关联。RNN随后利用softmax层解码字幕，生成候选字幕。激活函数为f（x），正向恒等函数为f（x） + x，x被视为单位元，如图1所示。在这种情况下，系统在训练过程中使用残差块校准模型，输入会同时通过权重连接和跳跃连接，也称为身份捷径。

图1：残留连接网络。图示了残差网络的架构，突出了跳跃连接，这些连接改善梯度流并在深度网络训练中减少了梯度消失。请点击此处查看该图的放大版本。

假设_P为输出;L是第一名。残留区块;如果 ReLU 接近 1，则应为惯用块;但如果不等于 1，则可计算为：

方程1 (1)

这里，b 是随机变量，k 是映射函数。

方程2 (2)

这里 s_l 被视为所提系统的存活概率;

方程3 (3)

生存概率的最终规则为：

方程4 (4)

其中S、_L 应当具有生存概率，而L则应当对总计为否。方块。

图片标题是一项具有挑战性的任务，结合了自然语言处理和计算机视觉，为图像生成描述性文字说明。为此，必须理解并解读图像的视觉内容，并将其转化为上下文中的连贯句子。在该领域，拥有广泛且多样化的数据集对于模型评估和训练至关重要。这些数据集提供了大量图片和相关注释，对于开发和测试图片说明算法至关重要。最常用的数据集是MSCOCO和Flickr30k，它们包含数百万张图像，并在图像处理中面临各种挑战。MSCOCO 比 Flickr30k11 大得多。MS COCO 数据集被划分为以下组：82,783 张用于训练，40,504 张用于验证，40,775 张用于测试。

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

实现方式是主模型ResNet-152，同时使用编码器作为CNN，解码器作为RNN，以及材料表中的资源。

ResNet-152
ResNet被认为是图像字幕中更高效提取特征的骨干。ResNet 在训练表现上优于其他模型，因为它解决了梯度消失问题并高效解决了该问题。图像中可能出现各种物体，模型需要理解它们之间的关系以更好地说明文字。这就是为什么它可以被视为一种层级特征提取。ResNet-152 可以处理复杂的计算机视觉任务。该模型的主要优势是有效利用残差或跳接连接。它在解决梯度消失问题方面非常有效。它可以学习复杂且稳健的特征，以实现更高的准确性。ResNet-152采用瓶颈设计，降低计算成本，使其比VGG-16等其他架构更有效。它拥有显著的迁移学习骨干，适用于预训练模型以及对象检测和数据分割等多样化任务。跳过连接加速了训练，也让它更稳定。与基于变换器的模型相比，后者通过自注意力机制理解顺序数据，ResNet 有很大不同。基于变换器的模型需要大量数据才能深入理解文本数据，因此能产生有效结果，但运行速度稍慢。选择ResNet的动机在于其跳跃连接，这不仅加快了执行速度，结果也显著提升。在图像标题领域，ResNet用于提取表示图像中物体及动作的特征。ResNet 使用了一个利用跳过连接的残留网络。这里，剩余块可以以输入Z为参考计算为：

方程5 (5)

其中Z被视为残差块的输入。
方程6 是一个残差函数，涉及批次归一化、卷积层和ReLu激活。{x_i} 被视为对应层的学习权重。Z 还定义了跳跃连接恒等式，这也解决了梯度消失的问题。ResNet 通常用作图像中可视化特征映射的特征提取器。这里， I 被视为将特征映射表示为高视觉特征表示V的输入图像。

方程8 (6)

在提取特征之前，必须对图像进行预处理以提升特征提取效果。它被视为从 MSCOCO 基准测试收集的原始图像，因此预处理的第一步是调整大小并进行归一化。

方程9 (7)

方程10 (8)

其中H^l是图像的高度，W^l是图像的权重。“_{我调整大小}”是调整尺寸后的图片。

将像素值从范围 [-1， 1] 或 [0， 1] 归一化

方程15 (9)

其中 μ 被视为像素的平均值 σ 视为参考图像的标准差。归一化后的图像现在会进一步处理以进行特征提取。

方程18 (10)

其中方程19 被视为特征向量。当行标题被标记化后，它会转换为数字格式。

方程20 (11)

如果说明文字分成单词，那么

方程21 (12)

在这里，词汇起着重要作用，每个单词都通过整数索引唯一标识。

方程22 (13)

其中 V_c 被视为一个词汇函数;必须确保所有序列长度均为偶数;因此，最大高度或理想长度被视为 L_的最大值。

方程25 (14)

现在代币嵌入为：

方程26 (15)

当 j = 1,2,3，... ..， L_最大值时

其中方程28 被视为一个 K 维的嵌入向量;现在解码器用于解码基于概率模型的候选标题生成。

方程29 (16)

其中w_j是时间戳j的作品，w_1：j-1是时间戳j-1生成的词，e_j-1是嵌入前一个词wj-1的特征。在每个时间戳处，网络都会根据词汇计算下一个即将出现的单词或概率。

方程35 (17)

其中w输出为输出权重，b为输出偏置。因此，最大概率计算为

方程38 (18)

候选标题的最大长度是在收到<结尾>词或识别为特殊令牌（如和时计算出。束搜索也有助于选择更合适的候选说明，因此序列为：

方程39 (19)

方程40 (20)

因此生成的候选说明是方程41

长短期记忆通常用于序列生成。LSTM使用卷积神经网络作为特征提取器，按顺序生成单词以生成有意义的句子。LSTM在每个时间戳T处计算遗忘门。

方程42

其中 f_t 被视为遗忘门，σ 作为激活函数， w_f 作为权重， b_f 作为偏置，

y_t 被视为输入特征向量，h_t-1 被视为隐藏状态。

方程48 (22)

方程49 (23)

J_t 被视为输入，方程106 被视为候选状态， w_j 和_{w c} 分别被视为输入权重和候选状态， b_j 和_{b c} 被视为偏置。

方程54 (24)

C_t被视为所有状态，C_t-1被视为前状态。

方程57 (25)

O_t 被视为输出， w_o 作为重量， b_o 作为偏置。为了初始化隐藏态和单元态，需要进行以下计算。

方程61 (26)

方程62 (27)

其中 h_i 和 C_i 分别被视为隐藏态和单元态，w_h 和 _{w c} 分别是隐藏状态和帆单元态的权重，b_c 和 b_h 被视为偏置，k 是特征提取器。说明的顺序计算为：

方程69 (28)

其中 T 是生成字幕的长度。

254 × 254 × 3 是调整大小或预处理图像，I 被视为输入图像。

方程71 (29)

其中 W 和 b 分别被视为权重和偏置，I 作为输入特征，ReLU 是激活函数。它是卷积层的计算。现在，池化层可以计算为：

方程72 (30)

在最终确定积聚层后;全连通层可以映射为：

方程73 (31)

其中 w_f 和 b_f 分别被视为网络的权重和偏置。

方程74 (32)

方程75 (33)

其中N被视为空间区域，d为特征的维度。

方程76 (34)

方程77 (35)

其中w_h 和b_h分别被视为隐藏态的权重和偏置，w、_c 和b_c 分别视为细胞态的权重和偏置。说明文字可以生成为：

方程78 (36)

编码器和解码器
该系统通过卷积神经网络编码数据供机器翻译。在这种情况下，输入和输出都是序列，但它们的长度可能不同。机器一次编码和解码每个向量。以向量为起点，机器开始编码和解码，并持续计算直到最终条件概率分布。一个例子如下：

方程80 (37)

这被称为概率分布。

系统可以将数据编码为矢量图像，之后可以进行解码。fc_n （I）被视为图像理解的图像模型。

方程83 (38)

方程84 (39)

方程85 (40)

S₁ 是 S₀ 的后续迭代，S₂ 是 S₁ 的后续迭代。可以说，每个输入都依赖于上一层的输出。图像由CNN转换为矢量，并发送到下一层，该层遍历所有矢量。在这里，RNN将向量解码成单词后，使用注意力机制依次排列单词组成有意义的句子。

方程86 (41)

其中 T 是输入的长度。

方程87 (42)

方程88 (43)

K₁、K₂、K₃、K₄、......、_{K T-1} 是隐藏的解码态。

图2：编码与解码模型。本图展示了用于图像标题的编码-解码框架，展示了图像特征如何被编码为矢量表示，随后再解码为连续的文本描述。请点击此处查看该图的放大版本。

流程模型
见图3，显示训练模块流程图，数据集及其真实说明是先加载的。数据经过CNN编码规范后，ResNet模型被初始化并使用提取的特征进行训练。RNN和带有起始和结尾标记的系统专用词便可用于解码字幕。如果找到最终单词，系统完成提取，N 是候选标题中的总单词数。

图3：训练模型流程图。图中概述了训练模型的逐步过程，包括数据预处理、特征提取、模型学习和优化。请点击此处查看该图的放大版本。

测试模型的流程图如图4所示，系统首先加载编码器和解码器模型，然后加载ResNet模型和输入数据进行字幕提取。如果没有解码错误，可以从第一个字推断到最后一个字。在达到最终单词后，可以获得解码后的单词，并通过使用注意力机制依次排列单词，从而创建有意义的文字说明。训练模型的光束大小为5，最大长度为20，批次长度为128，包含20个历期。

图4：测试模型流程图。图示展示了测试工作流程，展示了输入图像如何通过训练好的模型处理以生成说明并评估性能。请点击此处查看该图的放大版本。

ResNet-152 图像字幕算法
初始化输入和输出参数，输入即为MSCOCO图像集合，即I = （i₁， i₂， i₃， ....... i_N）注释 J = （j₁， j₂， j₃， ......... j_N）输出以字幕形式计算。在第一步，需要输入，然后通过调整宽高比对图像进行预处理，如

方程92 (44)

其中w和h是图像的原始宽度和高度，w新_和 h 为重新调整尺寸，Ts 被视为预定义的目标尺寸（_Ts = 224），最大尺寸（w， h）定义最大尺寸，并已按比例调整以保持宽高比。

特征提取后，需要声明单位块为

方程100 (45)

然后初始化参数，比如批次大小、纪元数、_隐藏层的权重隐藏的 W、输出层的 W 以及 B_高度，B_偏差作为偏差。初始化完成后，需要计算卷积层的输出。

方程101 (46)

如果 b_l 等价于 1，则可以视为正常的 ReLU 块。但如果 b_l 不等于 1 或等价于 0，那么它将是;

方程102 (47)

然后计算生存可行性

方程103 (48)

其中 F_K 被视为系统的存活可行性，K 表示模型中块的总数。然后计算概率分布

方程104 (49)

计算完概率分布后，构建模型以访问并解码数据。

方程105 /9500

K₁、K₂、K₃、K₄、......、_{K T-1} 是隐藏的解码态。

访问模型时，需要应用注意力机制来生成字幕，将候选字幕与参考字幕进行评估;最终指标可通过BLEU、METEOR、CIDEr和ROUGE进行评估。

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

软件与环境规范
Python 3.10 是实验中主要使用的编程语言。Visual Studio Code 用于搭建开发环境（VS Code）。本研究中使用的重要库包括用于数据序列化的Pickle、用于并行处理的多处理、用于文件处理的glob以及用于深度学习模型开发的PyTorch。硬件配置包括256 GB存储、8 GB内存，以及支持CUDA的NVIDIA GTX系列GPU，以实现更快的计算速度。实验中使用了搭载AMD Ryzen 5000系列处理器或Intel Core i5处理器的计算机。该系统采用了 Windows 10/11 操作系统。从表1中的环境规格表可以轻松理解。

<...

材料

规格

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

在人工智能领域，为图片添加字幕是一项艰难的任务。图像字幕一直是众多研究的主题，而尖锐或精确的字幕仍然需要最高的精度。许多机器学习技术可以用来实现图像字幕的目标，许多研究已经使用了CNN、RNN和ResNet-152。然而，需要更高的精度和更短的处理时间。该系统以CNN为编码器，RNN作为解码器，Torch Vision作为库，ResNet作为主要训练模型构建。ResNet 采用跳接连接技术，利用这些层，从而在性能上优于其他传统模型，如 Face-CapF、Face-Init、Face-Step、Face-CapL、CSPDN-BiLSTM-SelfAtt、Template-Augmentation、EfficientNetB0、EfficientNetB1、MobileNetV2 等，¹⁰^、¹¹^、¹²^、¹³^...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者声明他们没有任何相互竞争的财务利益或个人关系，这些关系可能影响本文报道的工作。

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

我们感谢MSCOCO数据集的创建者提供了本研究所用的基准。作者声明该研究未获得外部资金支持。

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000系列	AMD	100-100000059WOF	AMD Ryzen 5000系列是由AMD开发的高性能处理器系列，基于Zen 3架构。这些处理器广泛用于台式机和笔记本电脑，适用于通用计算和高要求的任务，如数据处理和机器学习工作流程。
GPU	NVIDIA	4.71933E+12	NVIDIA GeForce GTX是由NVIDIA开发的一系列图形处理单元（GPU），广泛用于游戏以及通用计算任务，如深度学习和图像处理。
Intel Core i5	Intel	BX8071514400F	Intel Core i5是由Intel开发的中端处理器系列，广泛用于个人电脑的通用和计算任务。
Python 3.10	Python软件基金会	PEP 619	Python是一种高级的解释型编程语言，广泛用于科学计算、数据分析和机器学习。它以其简洁性、可读性和广泛的库生态系统而闻名。
PyTorch	Facebook	26.03-py3	PyTorch是由Meta Platforms（前身为Facebook）开发的开源深度学习框架，广泛用于研究和工业中的神经网络构建和训练。
Visual Studio Code	Microsoft	无	Visual Studio Code（VS Code）是由Microsoft开发的轻量级、开源代码编辑器。它广泛用于软件开发，包括机器学习和深度学习项目。
Windows 11	Microsoft	KB5083631	Windows 11是由Microsoft开发的操作系统，广泛用于通用计算以及软件开发和机器学习任务。

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

利用深度学习方法生成图像说明

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles