Research Article

利用深度学习方法生成图像说明

June 12th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

该协议利用卷积神经网络(CNN)、RNN和ResNet进行图像说明,提取图像活动、人物、物体及其他元素的描述。它已经用BLEU、CIDEr、METEOR和ROUGE等指标来证明了这一点。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

图片说明生成是一项旨在提供有意义的文本描述的尝试,其中包含图像。提取的信息与图像中的活动相关。ResNet(残差网络)以其图像分类能力而闻名,开发了深度层次表示。本文旨在利用ResNet配合多种智能滤镜,对图像进行更深入的分类,从而生成真实且有意义的描述,且对参考说明高度精确。该研究利用智能滤波技术增强图像,利用卷积神经网络编码特征,进行模型训练,随后使用RNN(循环神经网络)来解码特征。ResNet 是计算机视觉任务中非常有效的模型,尤其是对象分类和语义分析。ResNet以剩余连接闻名,这种连接也被称为跳跃连接,解决了消失梯度问题,这是深度学习中的关键问题。这里使用MSCOCO(Microsoft上下文中的通用对象)基准测试来训练模型,模型是一个包含参考注释的大数据集,适用于各种计算机视觉任务。ResNet有助于增强泛化能力,这对多样化的图像尤为有用。根据结果,BLUE分数为B1:0.579,B2:0.404,B3:0.279,B4:0.191;流星:0.195;胭脂:0.396;CIDEr:0.6。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

在计算机视觉和自然语言处理领域,图像字幕是一项关键任务,用于提取图像及其所描绘动作的描述。模型的目的是理解图像并将信息转化为有意义的句子或说明。整个过程包括两个重要阶段:第一阶段是特征提取,使用卷积神经网络模型;第二是利用RNN进行图像描述;中间则使用ResNet进行语义分析、序列生成和注意力机制。ResNet 与基于模板的方法或基于 DenseNet 的模块非常不同,因为它使用跳过连接,从而减少执行时间并提升性能。图片说明有许多应用,包括帮助视障人士、推动社交媒体平台、优化基于图片的搜索引擎、基于图片的人工智能(AI)等。

在计算机视觉中,场景识别是识别和分类图像的一般上下文或环境的过程,例如海滩、城市景观、森林或办公室。与专注于单个物体的物体识别不同,场景识别考虑纹理、空间排列和物体关系以理解更大的背景。它使用卷积神经网络(CNN)和视觉变换器(Vision Transformers),这些深度学习模型是在Places365和ImageNet等大型数据集上训练的。应用包括安全监控、增强现实和虚拟现实(AR和VR)带来沉浸式体验,机器人技术用于环境感知,以及自动驾驶车辆用于导航。尽管取得了进步,视角变化、遮挡和光照变化等问题仍使场景识别成为计算机视觉和人工智能研究中的热门话题。计算机视觉中的另一个根本问题是场景识别。

EnsCaption是一种双生成对抗网络模型,被提出用于改进生成-检索集合技术3。这种布局支持和谐、以生育为基础的图片字幕方法,生成与现有目标相符的字幕。而基于检索的技术则使用基于位置或分级的模型来选择比图像查询中其他模型更精确地提取信息的最佳模型。引入了图像映射到“意义空间”的方法,使用视觉组件如对象、活动和场景,然后与相应的口头模板对齐4.利用图像中的相关性和特质,方法构建短语。句子以丰富、浓缩且微妙的方式表达信息。基于模板的字幕生成通过融入常识知识以提升语义理解得到提升5.该技术将模板的覆盖范围从直接图像特征扩展到涵盖推断的关联。该工作利用现有的对象检测数据集,为每个注释类别提取16,000条常识性陈述。此外,利用WordNet实现了推广,使得关于此前未见对象6的大量事实得以归纳。提供深度学习图像字幕技术的有组织分类综述,包括注意力机制、强化学习策略和编码-解码框架等主题。除了解决物体幻觉和语境理解等问题外,还考察了常用数据集和评估标准。作者指出了进一步研究的领域,如改进视觉语言预训练技术和减少数据集偏倚。基于卷积神经网络和循环神经网络的语义分析方法被探索用于图像字幕任务7.图片字幕是最著名的应用之一,它允许计算机生成富有感染力的短语,封装图像。为了提供高层次且显著的语义描述,这一过程不仅仅是识别对象和场景;它还包括考察它们的状态、特征和相互作用。尽管图片说明本身复杂且困难,学者们在该领域取得了显著进展。本研究涵盖的三种主要基于深度神经网络的图像字幕技术是基于CNN-RNN的、基于CNN-CNN的框架和强化学习框架。引入了端到端可训练的图像说明模型,集成计算机视觉与自然语言处理,生成连贯的图像描述8。为了创建说明,它使用编码器-解码器框架,其中LSTM在预训练的CNN将其编码为特征向量后,将图像解码成一串单词。尽管存在缺点,包括复杂场景的困难,但论文在视觉语言任务上的贡献依然至关重要。

ResNet 是卷积神经网络(CNN),用于本研究的图像字幕模型中提取丰富的视觉信息。ResNet作为编码器,生成表示图像的特征矢量,通常用于编码-解码器架构中。解码器能够逐词生成描述性字幕,接收这些功能,通常通过循环神经网络(RNN),如LSTM或GRU实现。还可以添加注意力机制,使解码器在生成每个词时能够专注于图像的特定区域,从而提升性能。为了最大化标题准确性,模型采用交叉熵等损失函数和COCO等数据集进行端到端训练。迁移学习和ResNet微调可以增强特征提取,进一步强化模型,使其能够在多种图像中生成高质量、符合上下文的说明。在图像字幕方面,ResNet常被优先采用,因为它有效解决了深度神经网络中常见的消失梯度问题。这得益于其新颖的残差学习方法,通过使用跳跃连接促进梯度流动,在反向传播过程中训练更深的网络而不牺牲性能。多层感知器是一个完全连接的前馈神经网络,与可训练层相关联。RNN随后利用softmax层解码字幕,生成候选字幕。激活函数为f(x),正向恒等函数为f(x) + x,x被视为单位元,如 图1所示。在这种情况下,系统在训练过程中使用残差块校准模型,输入会同时通过权重连接和跳跃连接,也称为身份捷径。

figure-introduction-1
图1:残留连接网络。 图示了残差网络的架构,突出了跳跃连接,这些连接改善梯度流并在深度网络训练中减少了梯度消失。 请点击此处查看该图的放大版本。

假设P为 输出;L是第一名。残留区块;如果 ReLU 接近 1,则应为惯用块;但如果不等于 1,则可计算为:

figure-introduction-2(1)

这里,b 是随机变量,k 是映射函数。

figure-introduction-3(2)

这里 sl 被视为所提系统的存活概率;

figure-introduction-4(3)

生存概率的最终规则为:

figure-introduction-5(4)

其中S、L 应当具有生存概率,而L则应当对总计为否。方块。

图片标题是一项具有挑战性的任务,结合了自然语言处理和计算机视觉,为图像生成描述性文字说明。为此,必须理解并解读图像的视觉内容,并将其转化为上下文中的连贯句子。在该领域,拥有广泛且多样化的数据集对于模型评估和训练至关重要。这些数据集提供了大量图片和相关注释,对于开发和测试图片说明算法至关重要。最常用的数据集是MSCOCO和Flickr30k,它们包含数百万张图像,并在图像处理中面临各种挑战。MSCOCO 比 Flickr30k11 大得多。MS COCO 数据集被划分为以下组:82,783 张用于训练,40,504 张用于验证,40,775 张用于测试。

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

实现方式是主模型ResNet-152,同时使用编码器作为CNN,解码器作为RNN,以及材料 中的资源。

ResNet-152
ResNet被认为是图像字幕中更高效提取特征的骨干。ResNet 在训练表现上优于其他模型,因为它解决了梯度消失问题并高效解决了该问题。图像中可能出现各种物体,模型需要理解它们之间的关系以更好地说明文字。这就是为什么它可以被视为一种层级特征提取。ResNet-152 可以处理复杂的计算机视觉任务。该模型的主要优势是有效利用残差或跳接连接。它在解决梯度消失问题方面非常有效。它可以学习复杂且稳健的特征,以实现更高的准确性。ResNet-152采用瓶颈设计,降低计算成本,使其比VGG-16等其他架构更有效。它拥有显著的迁移学习骨干,适用于预训练模型以及对象检测和数据分割等多样化任务。跳过连接加速了训练,也让它更稳定。与基于变换器的模型相比,后者通过自注意力机制理解顺序数据,ResNet 有很大不同。基于变换器的模型需要大量数据才能深入理解文本数据,因此能产生有效结果,但运行速度稍慢。选择ResNet的动机在于其跳跃连接,这不仅加快了执行速度,结果也显著提升。在图像标题领域,ResNet用于提取表示图像中物体及动作的特征。ResNet 使用了一个利用跳过连接的残留网络。这里,剩余块可以以输入Z为参考计算为:

figure-protocol-1(5)

其中Z被视为残差块的输入。
figure-protocol-2是一个残差函数,涉及批次归一化、卷积层和ReLu激活。{xi} 被视为对应层的学习权重。Z 还定义了跳跃连接恒等式,这也解决了梯度消失的问题。ResNet 通常用作图像中可视化特征映射的特征提取器。这里, I 被视为将特征映射表示为高视觉特征表示V的输入图像。

figure-protocol-3(6)

在提取特征之前,必须对图像进行预处理以提升特征提取效果。它被视为从 MSCOCO 基准测试收集的原始图像,因此预处理的第一步是调整大小并进行归一化。

figure-protocol-4(7)

figure-protocol-5(8)

其中Hl是图像的高度,Wl是图像的权重。我调整大小”是调整尺寸后的图片。

将像素值从范围 [-1, 1] 或 [0, 1] 归一化

figure-protocol-6(9)

其中 μ 被视为像素的平均值 σ 视为参考图像的标准差。归一化后的图像现在会进一步处理以进行特征提取。

figure-protocol-7(10)

其中 figure-protocol-8 被视为特征向量。当行标题被标记化后,它会转换为数字格式。

figure-protocol-9(11)

如果说明文字分成单词,那么

figure-protocol-10(12)

在这里,词汇起着重要作用,每个单词都通过整数索引唯一标识。

figure-protocol-11(13)

其中 Vc 被视为一个词汇函数;必须确保所有序列长度均为偶数;因此,最大高度或理想长度被视为 L的最大值

figure-protocol-12(14)

现在代币嵌入为:

figure-protocol-13(15)

j = 1,2,3,... .., L最大值

其中 figure-protocol-14 被视为一个 K 维的嵌入向量;现在解码器用于解码基于概率模型的候选标题生成。

figure-protocol-15(16)

其中wj是时间戳j的作品,w1:j-1是时间戳j-1生成的词,ej-1是嵌入前一个词wj-1的特征。在每个时间戳处,网络都会根据词汇计算下一个即将出现的单词或概率。

figure-protocol-16(17)

其中w输出为输出权重,b为输出偏置。因此,最大概率计算为

figure-protocol-17(18)

候选标题的最大长度是在收到<结尾>词或识别为特殊令牌(如和时计算出。束搜索也有助于选择更合适的候选说明,因此序列为:

figure-protocol-18(19)

figure-protocol-19(20)

因此生成的候选说明是 figure-protocol-20

长短期记忆通常用于序列生成。LSTM使用卷积神经网络作为特征提取器,按顺序生成单词以生成有意义的句子。LSTM在每个时间戳T处计算遗忘门。

figure-protocol-21

其中 ft 被视为遗忘门,σ 作为激活函数, wf 作为权重, bf 作为偏置,

yt 被视为输入特征向量,ht-1 被视为隐藏状态。

figure-protocol-22(22)

figure-protocol-23(23)

Jt 被视为输入, figure-protocol-24被视为候选状态, wjw c 分别被视为输入权重和候选状态, bjb c 被视为偏置。

figure-protocol-25(24)

Ct被视为所有状态,Ct-1被视为前状态。

figure-protocol-26(25)

Ot 被视为输出, wo 作为重量, bo 作为偏置。为了初始化隐藏态和单元态,需要进行以下计算。

figure-protocol-27(26)

figure-protocol-28(27)

其中 hi Ci 分别被视为隐藏态和单元态,wh w c 分别是隐藏状态和帆单元态的权重,bc bh 被视为偏置,k 是特征提取器。说明的顺序计算为:

figure-protocol-29(28)

其中 T 是生成字幕的长度。

254 × 254 × 3 是调整大小或预处理图像,I 被视为输入图像。

figure-protocol-30(29)

其中 W 和 b 分别被视为权重和偏置,I 作为输入特征,ReLU 是激活函数。它是卷积层的计算。现在,池化层可以计算为:

figure-protocol-31(30)

在最终确定积聚层后;全连通层可以映射为:

figure-protocol-32(31)

其中 wf bf 分别被视为网络的权重和偏置。

figure-protocol-33(32)

figure-protocol-34(33)

其中N被视为空间区域,d为特征的维度。

figure-protocol-35(34)

figure-protocol-36(35)

其中wh bh分别被视为隐藏态的权重和偏置,w、c bc 分别视为细胞态的权重和偏置。说明文字可以生成为:

figure-protocol-37(36)

编码器和解码器
该系统通过卷积神经网络编码数据供机器翻译。在这种情况下,输入和输出都是序列,但它们的长度可能不同。机器一次编码和解码每个向量。以向量为起点,机器开始编码和解码,并持续计算直到最终条件概率分布。一个例子如下:

figure-protocol-38(37)

这被称为概率分布。

系统可以将数据编码为矢量图像,之后可以进行解码。fcn (I)被视为图像理解的图像模型。

figure-protocol-39(38)

figure-protocol-40(39)

figure-protocol-41(40)

S1 是 S0 的后续迭代,S2 是 S1 的后续迭代。可以说,每个输入都依赖于上一层的输出。图像由CNN转换为矢量,并发送到下一层,该层遍历所有矢量。在这里,RNN将向量解码成单词后,使用注意力机制依次排列单词组成有意义的句子。

figure-protocol-42(41)

其中 T 是输入的长度。

figure-protocol-43(42)

figure-protocol-44(43)

K1K2K3K4、......、K T-1 是隐藏的解码态。

figure-protocol-45
图2:编码与解码模型。 本图展示了用于图像标题的编码-解码框架,展示了图像特征如何被编码为矢量表示,随后再解码为连续的文本描述。 请点击此处查看该图的放大版本。

流程模型
图3显示训练模块流程图,数据集及其真实说明是先加载的。数据经过CNN编码规范后,ResNet模型被初始化并使用提取的特征进行训练。RNN和带有起始和结尾标记的系统专用词便可用于解码字幕。如果找到最终单词,系统完成提取,N 是候选标题中的总单词数。

figure-protocol-46
图3:训练模型流程图。 图中概述了训练模型的逐步过程,包括数据预处理、特征提取、模型学习和优化。 请点击此处查看该图的放大版本。

测试模型的流程图如 图4所示,系统首先加载编码器和解码器模型,然后加载ResNet模型和输入数据进行字幕提取。如果没有解码错误,可以从第一个字推断到最后一个字。在达到最终单词后,可以获得解码后的单词,并通过使用注意力机制依次排列单词,从而创建有意义的文字说明。训练模型的光束大小为5,最大长度为20,批次长度为128,包含20个历期。

figure-protocol-47
图4:测试模型流程图。 图示展示了测试工作流程,展示了输入图像如何通过训练好的模型处理以生成说明并评估性能。 请点击此处查看该图的放大版本。

ResNet-152 图像字幕算法
初始化输入和输出参数,输入即为MSCOCO图像集合,即I = (i1i2i3, ....... iN)注释 J = (j1 j2j3, ......... jN)输出以字幕形式计算。在第一步,需要输入,然后通过调整宽高比对图像进行预处理,如

figure-protocol-48(44)

其中w和h是图像的原始宽度和高度,w新 h 为重新调整尺寸,Ts 被视为预定义的目标尺寸(Ts = 224),最大尺寸(w, h)定义最大尺寸,并已按比例调整以保持宽高比。

特征提取后,需要声明单位块为

figure-protocol-49(45)

然后初始化参数,比如批次大小、纪元数、隐藏层的权重隐藏的 W、输出层的 W 以及 B高度,B偏差作为偏差。初始化完成后,需要计算卷积层的输出。

figure-protocol-50(46)

如果 bl 等价于 1,则可以视为正常的 ReLU 块。但如果 bl 不等于 1 或等价于 0,那么它将是;

figure-protocol-51(47)

然后计算生存可行性

figure-protocol-52(48)

其中 FK 被视为系统的存活可行性,K 表示模型中块的总数。然后计算概率分布

figure-protocol-53(49)

计算完概率分布后,构建模型以访问并解码数据。

figure-protocol-54/9500

K1K2K3K4、......、K T-1 是隐藏的解码态。

访问模型时,需要应用注意力机制来生成字幕,将候选字幕与参考字幕进行评估;最终指标可通过BLEU、METEOR、CIDEr和ROUGE进行评估。

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

软件与环境规范
Python 3.10 是实验中主要使用的编程语言。Visual Studio Code 用于搭建开发环境(VS Code)。本研究中使用的重要库包括用于数据序列化的Pickle、用于并行处理的多处理、用于文件处理的glob以及用于深度学习模型开发的PyTorch。硬件配置包括256 GB存储、8 GB内存,以及支持CUDA的NVIDIA GTX系列GPU,以实现更快的计算速度。实验中使用了搭载AMD Ryzen 5000系列处理器或Intel Core i5处理器的计算机。该系统采用了 Windows 10/11 操作系统。从 表1中的环境规格表可以轻松理解。

材料规格
GPUNVIDIA GTX 系列
图书馆PyTorch、Pickle、多程序设计、Glob
操作系统Windows 10/11
处理器英特尔Core i5/AMD Ryzen 5000系列
节目安排Python 3.10
内存8 GB
软件Visual Studio Code
存储256 GB

表1:环境规范。 本表总结了实现中使用的材料及其规范,如编程语言、库和硬件规范。

定性分析
根据不同类别对模型的定性分析,如户外与室内场景以及简单场景与复杂场景,模型在描述图像方面相当高效。B1、B2、B3和B4被视为BLEU成绩。C被视为CIDEr,M为流星,R被视为ROUGE。对于每个矩阵,其中B1为0.579,B2为0.404,B3为0.279,B4为0.191,流星为0.195,ROUGE为0.396,CIDEr为0.6,结果为1,如 表2所示。

矩阵MSCOCO 评分
BLEU10.579
BLEU20.404
BLEU30.279
BLEU40.191
流星0.195
鲁日0.396
CIDEr0.6

表2:实验结果。 下表通过BLEU、METEOR、ROUGE和CIDEr等评估指标总结了拟议模型的性能,提供对字幕质量的定量评估。

figure-results-1
图5:实验结果。 图示了评估指标的图形化表现,展示了模型在不同指标上的比较表现。 请点击此处查看该图的放大版本。

结果比较见表3、表4和 表5。 以下参考文献列于表3、3和4:10,11,12,13,14

方法B1B2B3B4
面孔 [10]0.57130.36510.24070.1652
面无表情 [10]0.56630.36490.2430.1686
面罩 [11]0.5890.37890.25070.1719
面步 [10]0.58430.37560.24780.1696
CSPDN-BiLSTM-SelfAtt [12]0.60120.39920.27030.1921
CNN+RNN+ResNet-152(提议)0.5790.4040.2790.191

表3:BLEU成绩的结果比较。下表比较了不同模型或配置下的BLEU分数结果,以突出字幕生成准确性的改进。

表3表4所示,CSPDN-BiLSTM-SelfAtt12在B1和B4上表现更好,而CNN+RNN+ResNet-152在B2和B3上表现更好。CNN+RNN+ResNet-152比METER和CIDEr更好,而不是ROUGE。所以这两种方法在BLEU分数上是一样的,但提出的那种比另外两个指标更好。因此,最终结果的整体优越性是通过所提方法实现的。Face-CapF10、Face-Init10、Face-CapL11、Face-Step10 正在基于 FlickrFace11K 数据集进行图片说明。但即使是大型数据集,结果也相对较差。尽管所提模型的CIDEr分数显著更高,但这种差异源于评估程序、数据集准备和实施细节的差异。

方法流星CIDEr鲁日
面孔 [10]0.17190.23040.4476
面无表情 [10]0.17170.23130.4484
面罩 [11]0.17440.24720.4547
面步 [10]0.17450.22830.4504
CSPDN-BiLSTM-SelfAtt [12]0.19320.26170.4793
CNN+RNN+ResNet-152(提议)0.1950.60.396

表4:Meteor、CIDEr和ROUGE的结果比较。 本表格对多种评估指标进行了比较分析,以评估生成字幕的语义和句法质量。

方法B1B2B3B4流星鲁日
模板增强 [13]0.2380.1090.050.0220.0960.249
高效NetB0 [14]0.28270.13250.05880.02660.26610.3609
高效NetB1 [14]0.2890.14040.06420.02860.2710.3718
ResNet50 [14]0.26370.12170.04960.02070.24370.3423
MobileNetV2 [14]0.21060.0640.02150.0090.17940.2606
CNN+RNN+ResNet-152(提议)0.5790.4040.2790.1910.1950.396

表5:BLEU、METEOR和ROUGE评分的结果比较。 下表汇总了关键评估指标的比较,以展示模型的整体有效性。

根据 表5,EfficientNetB1 14 更适合METEOR,但CNN+RNN+ResNet-152更适合B1-B 4 和ROUGE总体而言,所提出的结果在所有BLEU和ROUGE指标上均优于上述方法。

数据可用性:
与本研究相关的所有原始数据和编码文件均可在补充文件中查阅。

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

在人工智能领域,为图片添加字幕是一项艰难的任务。图像字幕一直是众多研究的主题,而尖锐或精确的字幕仍然需要最高的精度。许多机器学习技术可以用来实现图像字幕的目标,许多研究已经使用了CNN、RNN和ResNet-152。然而,需要更高的精度和更短的处理时间。该系统以CNN为编码器,RNN作为解码器,Torch Vision作为库,ResNet作为主要训练模型构建。ResNet 采用跳接连接技术,利用这些层,从而在性能上优于其他传统模型,如 Face-CapF、Face-Init、Face-Step、Face-CapL、CSPDN-BiLSTM-SelfAtt、Template-Augmentation、EfficientNetB0、EfficientNetB1、MobileNetV2 等,1011121314 等。

本工作的关键步骤是使用智能滤镜清除图像,然后进行特征提取,包含所有主要步骤。没有精确的特征提取,就无法实现模型的目标,如果系统未能正确提取特征,则影响指标评分的准确性。训练阶段通过对特征向量和注意力机制的深度分析执行,在解码测试数据中发挥了关键作用。工作中还有一个关键步骤,就是更新人声。当测试数据时出现新词汇,这些词汇会被附加到词典中以提升模型性能。这些关键步骤对于实现更高准确性起到了关键作用,而准确率高于之前提出的模型,如模板增强法。系统为MSCOCO基准测试训练了一个模型,获得了更高效的图片字幕模型。

如果测试数据大小增加,可能出现与图像相关的新词。生成字幕时也可能造成无关紧要,然后可以通过模型中使用的注意力机制来处理。词汇可以通过注意力机制进行更新,这对后续评估非常有效。它可以被视为自学或异常处理。由于模型使用包含数千张真实图像的MSCOCO训练,每次推断时都可能出现大量需要更新的对象。

这项工作的一个缺点是,与用于训练的现代数据集相比,模型在更古老的图像上表现可能较差,尤其是黑白或低质量历史图像,原因是视觉特征、对比度和纹理的差异。如果图像分辨率较低,提取精确特征会更困难,在这种情况下,ResNet-152可能会降低编码阶段。它在太多较旧的图像上表现较差,这意味着这些图像是古代的,因为特征矢量差或损坏。局限性包括单一数据集评估和缺乏交叉验证。

与传统方法相比,该模型更优,因为它增强了特征提取,从而提升了图像说明的生成效果。智能过滤提升特征提取或编码阶段,从而更好地构建模型。ResNet-152还使用跳跃连接,利用训练期间的时间。因此,执行速度远快于其他模型,如 EfficientNetB014。注意力机制也是提升模型性能的主要因素。

该技术可用于图像检索系统、自动监控以及视障人士的辅助技术。随着人工智能的快速发展,图像检索系统亟需改进,而这项技术可以为此做出贡献。通过这种模式,视障人士可以通过将世界转化为语言来获得帮助。图片说明有几个重要且潜在的应用。

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

作者声明他们没有任何相互竞争的财务利益或个人关系,这些关系可能影响本文报道的工作。

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

我们感谢MSCOCO数据集的创建者提供了本研究所用的基准。作者声明该研究未获得外部资金支持。

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
AMD Ryzen 5000 系列AMD100-1000000059WOFAMD Ryzen 5000 系列是 AMD 基于 Zen 3 架构开发的一系列高性能处理器。这些处理器广泛应用于台式机和笔记本电脑,既用于通用计算,也用于数据处理和机器学习等高要求任务。
GPUNVIDIA 4.71933E+12NVIDIA GeForce GTX 是一系列由 NVIDIA 开发的图形处理单元(GPU),广泛应用于游戏以及深度学习和图像处理等通用计算任务。
英特尔Core i5英特尔BX8071514400F英特尔Core i5是英特尔开发的中端处理器系列,广泛应用于个人电脑中,用于通用和计算任务。
Python 3.10Python 软件基础PEP 619Python 是一种高级解释型编程语言,广泛应用于科学计算、数据分析和机器学习领域。它以简洁、易读性和丰富的库生态系统而闻名。
PyTorch脸书26.03-py3PyTorch 是由 Meta Platforms(前身为 Facebook)开发的开源深度学习框架,广泛用于科研和工业中的神经网络构建和训练。
Visual Studio CodeMicrosoft没有Visual Studio Code(VS Code)是一款由Microsoft开发的轻量级开源代码编辑器。它被广泛应用于软件开发,包括机器学习和深度学习项目。
Windows 11MicrosoftKB5083631Windows 11 是由 Microsoft 开发的操作系统,广泛用于通用计算以及软件开发和机器学习任务。

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Image Caption GenerationDeep LearningResNet ModelSmart FilteringFeature EncodingCNN EncoderRNN DecoderObject ClassificationSemantic AnalysisMSCOCO Dataset

Related Articles