Este protocolo utiliza CNNs, RNNs e ResNets para legendagem de imagens, extraindo descrições das atividades, pessoas, objetos e outros elementos das imagens. Ele foi justificado com as pontuações das métricas BLEU, CIDEr, METEOR e ROUGE.
Research Article
June 12th, 2026
Este protocolo utiliza CNNs, RNNs e ResNets para legendagem de imagens, extraindo descrições das atividades, pessoas, objetos e outros elementos das imagens. Ele foi justificado com as pontuações das métricas BLEU, CIDEr, METEOR e ROUGE.
A geração de legendas de imagem é um esforço para fornecer uma descrição textual significativa que envolva uma imagem. As informações extraídas são relevantes para as atividades presentes nas imagens. A ResNet (Rede Residual) é bem conhecida por sua capacidade de classificar imagens, tendo desenvolvido representações hierárquicas profundas. A intenção deste artigo é usar o ResNet com vários filtros inteligentes para classificar imagens de forma mais profunda, permitindo a geração de descrições genuínas e significativas, altamente precisas em relação às legendas de referência. Aqui, o trabalho utiliza uma técnica de filtragem inteligente para aprimorar imagens, uma CNN para codificar características, treinamento de modelos e, posteriormente, uma RNN (Rede Neural Recorrente) para decodificar as características. O ResNet é um modelo muito eficaz para tarefas de visão computacional, especialmente classificação de objetos e análise semântica. A ResNet é bem conhecida por conexões residuais, que também são conhecidas como conexões de pular que resolvem o problema do gradiente nulo, que é um problema crucial no aprendizado profundo. Aqui, o benchmark MSCOCO (Microsoft Common Object in Context) é usado para treinar o modelo, que é um grande conjunto de dados com anotações de referência úteis para várias tarefas de visão computacional. O ResNet ajuda a aprimorar a capacidade de generalização, o que é particularmente útil para imagens diversas. De acordo com os resultados obtidos, as pontuações BLUE são B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEORO: 0,195; ROUGE: 0,396; e CIDEr: 0,6.
Nos campos de visão computacional e processamento de linguagem natural, a legendagem de imagens é uma tarefa crucial que extrai uma descrição da imagem e das ações que ela retrata. A intenção do modelo é compreender imagens e traduzir as informações em frases ou legendassignificativas 1. Todo o procedimento consiste em duas fases significativas: a primeira é a extração de características, onde é usado um modelo CNN; a segunda é a descrição da imagem usando um RNN e, entre elas, o ResNet é usado para análise semântica, geração de sequências e um mecanismo de atenção. O ResNet é muito diferente dos métodos baseados em templates ou dos módulos baseados em DenseNet porque utiliza conexões de salto que reduzem o tempo de execução enquanto melhoram o desempenho. Existem inúmeras aplicações da legenda de imagens, incluindo ajudar pessoas com deficiência visual, impulsionar plataformas de redes sociais, otimizar mecanismos de busca baseados em imagens, IA baseada em imagens (inteligência artificial) e muito mais.
Na visão computacional, o reconhecimento de cenas é o processo de identificar e classificar o contexto geral ou ambiente da imagem, como uma praia, paisagem urbana, floresta ou escritório. Diferente do reconhecimento de objetos, que foca em itens individuais, o reconhecimento de cenas considera texturas, arranjos espaciais e relações entre objetos para entender o contexto mais amplo. Ele utiliza CNNs e Vision Transformers, modelos de aprendizado profundo treinados com grandes conjuntos de dados como Places365 e ImageNet. As aplicações incluem vigilância de segurança, realidade aumentada e virtual (AR e VR) para experiências imersivas, robótica para conscientização ambiental e veículos autônomos para navegação. Apesar dos avanços, problemas como mudanças de pontos de vista, oclusões e iluminação em mudança tornam o reconhecimento de cenas um tema quente em pesquisa em visão computacional e inteligência artificial. Outro problema fundamental na visão computacional é o reconhecimento de cena.
O EnsCaption, um modelo de rede adversarial generativa dupla, foi proposto para melhorar uma técnica de conjuntogeração-recuperação 3. Esse layout permite métodos harmoniosos de legendagem de imagens baseados em procriação que geram legendas alinhadas aos objetivos existentes. Enquanto a técnica baseada em recuperação utiliza um modelo baseado em posição ou gradação para selecionar o melhor modelo para extrair informações com mais precisão do que os outros na consulta baseada em imagem. Um mapeamento de imagens para um "espaço de significado" foi introduzido usando componentes visuais como objetos, atividades e cenas, que foram então alinhados com os modelos verbaiscorrespondentes 4. Usando as correlações e qualidades encontradas nas imagens, a abordagem constrói frases. Frases expressam informações de forma rica, condensada e sutil. A geração de legendas baseada em modelos foi aprimorada incorporando conhecimento de senso comum para melhorar a compreensãosemântica 5. Essa técnica estendeu o alcance do molde além das características diretas da imagem, abrangendo associações inferidas. Este trabalho utiliza um conjunto de dados existente de detecção de objetos para extrair 16.000 declarações de bom senso para cada categoria anotada. Além disso, a generalização foi alcançada usando o WordNet, permitindo a indução de um grande número de fatos sobre objetos antesinéditos 6. Oferece uma revisão de uma taxonomia organizada de técnicas de deep learning para legendas de imagens, incluindo tópicos como mecanismos de atenção, táticas de aprendizado por reforço e frameworks codificador-decodificador. Além de abordar questões como alucinações de objetos e compreensão contextual, também examina conjuntos de dados e critérios de avaliação comumente utilizados. Os autores apontam áreas para estudos adicionais, como a melhoria das técnicas de pré-treinamento visão-linguagem e a redução do viés do conjunto de dados. Uma abordagem de análise semântica baseada em redes neurais convolucionais e redes neurais recorrentes foi explorada para tarefas de legendagemde imagens 7. Legendas de imagens são um dos usos mais conhecidos, permitindo que computadores produzam frases evocativas que encapsulam uma imagem. Para fornecer descrições semânticas significativas e de alto nível, esse procedimento envolve mais do que apenas identificar objetos e cenas; Também envolve examinar seus estados, características e interações. Apesar da complexidade e dificuldade inerentes à legendagem das imagens, os acadêmicos alcançaram avanços impressionantes na área. As três principais técnicas de legendagem de imagens baseadas em redes neurais profundas abordadas neste estudo são baseadas em CNN-RNN, CNN-CNN e frameworks de aprendizado por reforço. Foi introduzido um modelo treinável de ponta a ponta para legendas de imagens, integrando visão computacional e processamento de linguagem natural para gerar descrições coerentes dasimagens 8. Para criar uma legenda, ele usa uma estrutura codificador-decodificador, na qual um LSTM decodifica uma imagem em uma sequência de palavras após uma CNN pré-treinada a codificar em um vetor de características. Apesar de suas desfalhas, incluindo dificuldades com cenários intrincados, a contribuição do jornal para trabalhos de linguagem visual ainda éfundamental.
ResNet é a rede neural convolucional (CNN) usada no modelo de legenda de imagem do trabalho proposto para extrair informações visuais ricas das imagens de entrada. O ResNet serve como um codificador para produzir um vetor de características representando a imagem, que geralmente é usado em uma arquitetura codificador-decodificador. O decodificador, que gera legendas descritivas palavra a palavra, recebe essas características e frequentemente é implementado usando uma rede neural recorrente (RNN), como LSTM ou GRU. Um mecanismo de atenção pode ser adicionado para melhorar o desempenho, permitindo que o decodificador foque em regiões específicas da imagem à medida que gera cada palavra. Para maximizar a precisão das legendas, o modelo é treinado de ponta a ponta usando uma função de perda como cross-entropy e um conjunto de dados como COCO. O aprendizado por transferência e o ajuste fino do ResNet podem melhorar a extração de recursos, fortalecendo ainda mais o modelo e permitindo que ele produza legendas de alta qualidade e contextualmente adequadas em uma ampla gama de imagens. Na legenda de imagens, o ResNet é frequentemente preferido em relação a outros modelos porque resolve efetivamente o problema do gradiente nulo, um problema comum em redes neurais profundas. Isso é possível graças às suas novas abordagens de aprendizado residual, que treinam redes consideravelmente mais profundas sem sacrificar o desempenho, usando conexões de salto para facilitar o fluxo de gradiente durante a retropropagação. O perceptron multicamada, uma rede neural feedforward totalmente conectada, está associado à camada treinável. A RNN então decodifica legendas usando a camada softmax, produzindo legendas candidatas. A função de ativação é f(x), a função identidade direta é f(x) + x, e x é considerada identidade, ilustrado na Figura 1. Nesse caso, o sistema usa blocos residuais para calibrar o modelo durante o treinamento, e suas entradas passam tanto por conexões de peso quanto por conexões de salto, também chamadas de atalhos de identidade.

Figura 1: Rede de conexão residual. Esta figura ilustra a arquitetura de uma rede residual, destacando conexões de salto que melhoram o fluxo de gradiente e mitigam gradientes nulos durante o treinamento profundo de rede. Por favor, clique aqui para ver uma versão ampliada desta figura.
Assuma que Pl é a saída; I é o número de blocos residuais; ReLU deveria ser um bloco usual se for próximo de 1, mas se não for igual a 1, então pode ser calculado como:
(1)
Aqui, b é a variável aleatória e k é a função de mapeamento.
(2)
Aqui sl é considerado como a probabilidade de sobrevivência do sistema proposto;
(3)
A regra resultante para a probabilidade de sobrevivência como;
(4)
Onde SL supostamente dá probabilidade de sobrevivência, assim como L é suposto é o total não. de quarteirões.
Legenda de imagens é uma tarefa desafiadora que combina processamento de linguagem natural e visão computacional para produzir legendas textuais descritivas para imagens. Para isso, é preciso compreender e interpretar o conteúdo visual de uma imagem e traduzi-la em frases coerentes dentro do seu contexto. Nesse campo, ter conjuntos de dados extensos e diversos é crucial para avaliação e treinamento de modelos. Esses conjuntos de dados oferecem uma vasta gama de imagens e anotações relacionadas, que são cruciais para o desenvolvimento e teste de algoritmos de legenda de imagens. Os conjuntos de dados mais usados são MSCOCO e Flickr30k, que contêm milhões de imagens e apresentam vários desafios no processamento de imagens. O MSCOCO é muito maior que o Flickr30k11. O conjunto de dados MS COCO foi dividido nos seguintes conjuntos: 82.783 imagens para treinamento, 40.504 para validação e 40.775 para testes.
A implementação foi feita com o modelo principal, que é o ResNet-152, junto com um codificador como CNN, um decodificador como RNN e os recursos da Tabela de Materiais.
ResNet-152
O ResNet é considerado a espinha dorsal para extrair recursos de forma mais eficiente na legenda de imagens. O ResNet proporcionou melhor desempenho de treinamento do que outros modelos, pois resolveu o problema do gradiente nulo e o resolveu de forma eficiente. Vários objetos podem aparecer nas imagens, e o modelo precisa entender suas relações para uma legenda melhor. Por isso, pode ser considerado uma extração hierárquica de características. O ResNet-152 pode lidar com tarefas complexas de visão computacional. A principal vantagem desse modelo é o uso eficaz de conexões residuais ou de salto. É altamente eficaz para resolver o problema do gradiente nulo. Ele pode aprender recursos complexos e robustos para alcançar maior precisão. O ResNet-152 seguiu um projeto de gargalo que reduziu o custo computacional e o tornou mais eficaz do que outras arquiteturas, como o VGG-16. Possui uma espinha dorsal proeminente de aprendizado por transferência, adequada para modelos pré-treinados e tarefas variadas, como detecção de objetos e segmentação de dados. A conexão de salto acelerou o treinamento e o tornou mais estável. Comparado ao modelo baseado em transformador, que usa um mecanismo de autoatenção para entender dados sequenciais, o ResNet é bastante diferente. Um modelo baseado em transformador requer uma grande quantidade de dados para um entendimento profundo dos dados textuais, produzindo resultados eficazes, mas rodando um pouco mais lento. A motivação para escolher o ResNet são suas conexões de salto, que aceleram a execução com uma melhoria significativa nos resultados. No campo das legendas de imagens, o ResNet é usado para extrair as características que representam o objeto e a ação realizada na imagem. O ResNet usava uma rede residual que aproveitava conexões de salto. Aqui, o bloco residual pode ser calculado com referência da entrada Z como:
(5)
Onde Z é considerado a entrada do bloco residual.
é uma função residual que envolve normalização em lote, camadas convolucionais e ativação do ReLu. {xi} é considerado o peso de aprendizagem das camadas correspondentes. Z também define a identidade da conexão de salto, que também resolve o problema do gradiente nulo. O ResNet é geralmente usado como extrator de características para mapeamento visual de características a partir das imagens. Aqui, I é considerado como a imagem de entrada para representar os mapas de características em uma representação visual alta de características V.
(6)
Antes de extrair características, a imagem deve ser pré-processada para melhorar a extração de características. É considerada uma imagem bruta coletada do benchmark MSCOCO, então o primeiro passo no pré-processamento é redimensioná-la e normalizá-la.
(7)
(8)
Onde Hl é a altura da imagem e Wl é o peso da imagem. Euredimensiono a imagem redimensionada.
Para normalizar o valor do pixel a partir do alcance [-1, 1] ou [0, 1]
(9)
Onde μ é considerado como o valor médio do pixel σ é considerado o desvio padrão da imagem referenciada. A imagem normalizada agora é processada para extração de características.
(10)
Onde
, que é considerado como o vetor de características. Quando a legenda da linha é tokenizada, ela é convertida para o formato numérico.
(11)
Se a legenda se dividir em palavras, então
(12)
Aqui, o vocabulário desempenha um papel importante, com cada palavra identificada de forma única por indexação baseada em inteiros.
(13)
Onde Vc é considerado uma função de vocabulário; é preciso garantir que todas as sequências tenham comprimento uniforme; assim, a altura máxima ou comprimento ideal é considerada como Lmáx.
(14)
Agora o token é incorporado como;
(15)
para j = 1,2,3, ... .., Lmáximo
Onde
é considerado como um vetor embutido com K dimensões; agora o decodificador deve ser usado para decodificar a legenda para geração de legendas candidatas, que é baseada em um modelo probabilístico.
(16)
Onde wj é uma obra no carimbo de tempo j, w1: j-1 é a palavra gerada no carimbo de tempo j-1 ee j-1 é a característica embutida com a palavra anterior wj-1. A cada carimbo de tempo, a rede previu a próxima palavra ou a probabilidade é calculada sobre o vocabulário.
(17)
Onde wé o peso de saída e bé o viés de saída. Assim, a probabilidade máxima é calculada como
(18)
O comprimento máximo da legenda candidata é calculado assim que a palavra é recebida ou identificada como um token especial como e . A busca por feixe também é útil para selecionar a melhor legenda candidata, então a sequência é:
(19)
(20)
Assim, a legenda candidata gerada é a sequência de 
Memória de Curto Prazo Longo é geralmente usada na geração de sequências. O LSTM utiliza uma CNN como extrator de características e gera palavras sequencialmente para criar frases significativas. O LSTM calcula a porta de esquecimento em cada carimbo de tempo T.

Onde ft é considerado como gate de esquecimento, σ é considerado como função de ativação, wf é considerado como peso e bf como viés,
Yt é considerado como vetor de característica de entrada, HT-1 é considerado como estado oculto.
(22)
(23)
Jt é considerado como entrada,
é considerado como estado candidato, wj ew c são considerados como peso para entrada e estado candidato, respectivamente, bj e bc ou considerados como viés.
(24)
Ct é considerado como todos os estados, Ct-1 é considerado como estado anterior.
(25)
Ot é considerado como saída, wo como peso e bo como viés. Para inicializar os estados oculto e célula, são necessárias as seguintes computações.
(26)
(27)
Onde hi e Ci são considerados como estado oculto e estado da célula, respectivamente, wh e wc são pesos para o estado oculto e da célula da vela, respectivamente, bc e bh são considerados como viés, k é considerado como extrator de características. A sequência da legenda é calculada como:
(28)
Onde T é o comprimento da legenda gerada.
254 × 254 × 3 é a imagem redimensionada ou pré-processada, e I é considerado como a imagem de entrada.
(29)
Onde W e b são considerados como peso e viés, respectivamente, I é considerado como características de entrada, e ReLU é a função de ativação. É o cálculo da camada convolucional. Agora a camada de pooling pode ser calculada como:
(30)
Após finalizar a camada de pooling; A camada totalmente conectada pode ser mapeada como:
(31)
Onde wf e bf são considerados como peso e viés da rede, respectivamente.
(32)
(33)
Onde N é considerado como a região espacial e d como a dimensão da característica.
(34)
(35)
Onde wh e bh são considerados como peso e viés do estado oculto, respectivamente, wc e bc considerados como peso e viés do estado celular, respectivamente. A legenda pode ser gerada como:
(36)
Codificador e decodificador
O sistema proposto codifica os dados para tradução automática usando uma CNN. Nesse caso, a entrada e a saída são sequências, mas podem diferir em comprimento. Um de cada vez, a máquina codifica e decodifica cada vetor. Usando um vetor como ponto de partida, a máquina começa a codificar e decodificar, e continua calculando até a distribuição de probabilidade condicional final. Um exemplo é o seguinte:
(37)
Isso é considerado a distribuição de probabilidade.
O sistema pode codificar os dados na forma de uma imagem vetorial, e eles podem ser posteriormente decodificados. fcn (I) é considerado o modelo de imagem para compreensão de imagens.
(38)
(39)
(40)
S1 é a iteração subsequente de S0, e S2 é a iteração subsequente de S1. Pode-se dizer que toda entrada depende da saída da camada anterior. As imagens são convertidas em vetores pela CNN e enviadas para a camada seguinte, que percorre todos os vetores. Aqui, um mecanismo de atenção é usado para organizar sequencialmente as palavras em uma frase significativa após a RNN decodificar os vetores em palavras.
(41)
Onde T é o comprimento da entrada.
(42)
(43)
k1, k2, k3, k4, ......, kt-1 são estados de decodificação ocultos.

Figura 2: Modelo de codificação e decodificação. Esta figura apresenta a estrutura codificador–decodificador usada para legendas de imagens, mostrando como as características da imagem são codificadas em representações vetoriais e posteriormente decodificadas em descrições textuais sequenciais. Por favor, clique aqui para ver uma versão ampliada desta figura.
Modelo de processo
Veja a Figura 3, que mostra o fluxograma dos módulos de treinamento, onde o conjunto de dados e suas legendas de verdade foram carregados primeiro. Após a normalização dos dados para a codificação CNN, o modelo ResNet é inicializado e treinado usando as características extraídas. RNN e as palavras específicas do sistema marcadas com marcadores de início e fim podem então ser usadas para decodificar a legenda. O sistema completa a extração se a palavra final for encontrada, e N for o número total de palavras na legenda candidata.

Figura 3: Fluxograma do modelo de treinamento. Esta figura descreve o processo passo a passo envolvido no treinamento do modelo, incluindo pré-processamento de dados, extração de características, aprendizado de modelos e otimização. Por favor, clique aqui para ver uma versão ampliada desta figura.
O fluxograma do modelo de teste é mostrado na Figura 4, onde o sistema primeiro carrega os modelos do codificador e do decodificador, depois carrega o modelo ResNet e os dados de entrada para extração das legendas. Se não houver erros de decodificação, a inferência pode ser feita da primeira à última palavra. Após a última palavra ser alcançada, palavras decodificadas podem ser obtidas e uma legenda pode ser criada empregando um mecanismo de atenção para organizar as palavras sequencialmente de forma significativa. O tamanho da feixe do modelo de treinamento é de cinco com comprimento máximo de 20, e o tamanho do lote é de 128 com 20 épocas.

Figura 4: Fluxograma do modelo de teste. Esta figura mostra o fluxo de trabalho de teste, demonstrando como as imagens de entrada são processadas pelo modelo treinado para gerar legendas e avaliar o desempenho. Por favor, clique aqui para ver uma versão ampliada desta figura.
Algoritmo de legenda de imagens ResNet-152
Inicialize os parâmetros de entrada e saída, e aqui a entrada é tomada como o conjunto de imagens MSCOCO como I = (i1, i2, i3, ....... iN) junto com a anotação J = (j1, j2, j3, ......... jN) e a saída é calculada como legendas. Na primeira etapa, é necessária a entrada, depois pré-processar as imagens redimensionando a proporção de aspecto como
(44)
Onde w e h são a largura e altura originais da imagem, wnovo e hnovo são as dimensões redimensionadas, Ts é considerado um tamanho alvo predefinido (Ts = 224), max(w, h) define a maior dimensão, que foi escalada para manter a proporção de aspecto.
Após a extração de características, é necessário declarar o bloco identidade como
(45)
Depois, inicialize os parâmetros como tamanho do lote, número de épocas, Woculto como peso para camadas ocultas, Wsaída como camada de saída, altura B e viés B como viés. Uma vez feita a inicialização, é necessário calcular a saída da camada convolucional.
(46)
Pode ser considerado um bloco ReLU normal se bl for equivalente a 1. Mas se bl não for igual a 1 nem equivalente a 0, então seria;
(47)
Depois, calcule a viabilidade da sobrevivência por
(48)
Onde FK é considerado como a viabilidade de sobrevivência do sistema, e K é considerado como a representação do número total de blocos no modelo. Depois, calcule a distribuição de probabilidade
(49)
Uma vez calculada a distribuição de probabilidade, constrói o modelo para acessá-la e decodificar os dados usando.
/9500
k1, k2, k3, k4, ......, kt-1 são estados de decodificação ocultos.
Ao acessar o modelo, é necessário aplicar mecanismos de atenção para a geração de legendas que avaliem a legenda candidata em relação à legenda de referência; as métricas finais podem então ser avaliadas usando BLEU, METEOR, CIDEr e ROUGE.
Especificações de software e ambiente
Python 3.10 foi a principal linguagem de programação usada para os experimentos. O Visual Studio Code foi usado para configurar o ambiente de desenvolvimento (VS Code). Bibliotecas importantes usadas nessa pesquisa incluem Pickle para serialização de dados, multiprocessamento para processamento paralelo, glob para manuseio de arquivos e PyTorch para desenvolvimento de modelos de aprendizado profundo. A configuração de hardware incluía 256 GB de armazenamento, 8 GB de RAM e uma GPU da série NVIDIA GTX com suporte a CUDA para processamento mais rápido. Um computador rodando um processador AMD Ryzen série 5000 ou um processador Intel Core i5 foi usado para os experimentos. O Windows 10/11 foi o sistema operacional utilizado para a implementação. Isso pode ser facilmente compreendido a partir da tabela de especificações ambientais na Tabela 1.
| Material | Especificação |
| GPU | Série NVIDIA GTX |
| Bibliotecas | PyTorch, Pickle, Multiprogramação, Glob |
| OS | Windows 10/11 |
| Processador | Intel Core i5/AMD Ryzen 5000 série |
| Programação | Python 3.10 |
| RAM | 8 GB |
| Software | Visual Studio Code |
| Armazenamento | 256 GB |
Tabela 1: Especificações do ambiente. Esta tabela resume os materiais usados na implementação e suas especificações, como linguagens de programação, bibliotecas e especificações de hardware.
Análise qualitativa
De acordo com a análise qualitativa do modelo segundo as diferentes categorias, como cenas externas e internas e cenas simples e complexas, o modelo é um pouco eficiente na descrição da imagem. B1, B2, B3 e B4 são considerados como pontuações BLEU. C é considerado CIDEr, M é METEOR e R é considerado ROUGE. Para toda matriz onde B1 é 0,579, B2 é 0,404, B3 é 0,279, B4 é 0,191, METEOR é 0,195, ROUGE é 0,396 e CIDEr é 0,6, o resultado é representado por 1, como ilustrado na Tabela 2.
| Matrizes | Pontuações MSCOCO |
| BLEU 1 | 0.579 |
| BLEU2 | 0.404 |
| BLEU3 | 0.279 |
| BLEU4 | 0.191 |
| METEORO | 0.195 |
| ROUGE | 0.396 |
| CIDEr | 0.6 |
Tabela 2: Resultados experimentais. Esta tabela resume o desempenho do modelo proposto usando métricas de avaliação como BLEU, METEOR, ROUGE e CIDEr, fornecendo uma avaliação quantitativa da qualidade das legendas.

Figura 5: Resultado experimental. Esta figura apresenta uma representação gráfica das métricas de avaliação, ilustrando o desempenho comparativo do modelo em diferentes medidas. Por favor, clique aqui para ver uma versão ampliada desta figura.
A comparação de resultados é ilustrada nas Tabelas 3, 4 e 5. As seguintes referências estão listadas nas Tabelas 3, 3 & 4:10,11,12,13,14
| Método | B1 | B2 | B3 | B4 |
| Face-CapF [10] | 0.5713 | 0.3651 | 0.2407 | 0.1652 |
| Face-Init [10] | 0.5663 | 0.3649 | 0.243 | 0.1686 |
| Face-CapL [11] | 0.589 | 0.3789 | 0.2507 | 0.1719 |
| Passo Facial [10] | 0.5843 | 0.3756 | 0.2478 | 0.1696 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.6012 | 0.3992 | 0.2703 | 0.1921 |
| CNN+RNN+ResNet-152 (Proposto) | 0.579 | 0.404 | 0.279 | 0.191 |
Tabela 3: Comparação de Resultados para Escores BLEU. Esta tabela compara os resultados das pontuações BLEU entre diferentes modelos ou configurações para destacar melhorias na precisão da geração de legendas.
Como mostrado nas Tabelas 3 e 4, o CSPDN-BiLSTM-SelfAtt12 tem melhor desempenho em B1 e B4, enquanto CNN+RNN+ResNet-152 tem melhor desempenho em B2 e B3. CNN+RNN+ResNet-152 é melhor que METER e CIDEr, em vez de ROUGE. Portanto, ambos os métodos são iguais nas pontuações do BLEU, mas o proposto é melhor que as outras duas métricas. Portanto, a superioridade geral no resultado é alcançada pelo método proposto. Face-CapF10, Face-Init10, Face-CapL11, Face-Step10 estão realizando legendas de imagem baseadas no conjunto de dados FlickrFace11K. Mas os resultados são comparativamente ruins mesmo para um grande conjunto de dados. Embora o modelo proposto tenha uma pontuação CIDEr significativamente maior, essa discrepância é causada por diferenças no procedimento de avaliação, preparação do conjunto de dados e especificidades da implementação.
| Método | METEORO | CIDEr | ROUGE |
| Face-CapF [10] | 0.1719 | 0.2304 | 0.4476 |
| Face-Init [10] | 0.1717 | 0.2313 | 0.4484 |
| Face-CapL [11] | 0.1744 | 0.2472 | 0.4547 |
| Passo Facial [10] | 0.1745 | 0.2283 | 0.4504 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.1932 | 0.2617 | 0.4793 |
| CNN+RNN+ResNet-152 (Proposto) | 0.195 | 0.6 | 0.396 |
Tabela 4: Comparação de Resultados em relação a METEOR, CIDEr e ROUGE. Esta tabela fornece uma análise comparativa de múltiplas métricas de avaliação para avaliar a qualidade semântica e sintática das legendas geradas.
| Método | B1 | B2 | B3 | B4 | METEORO | ROUGE |
| Aumento de Template [13] | 0.238 | 0.109 | 0.05 | 0.022 | 0.096 | 0.249 |
| EfficientNetB0 [14] | 0.2827 | 0.1325 | 0.0588 | 0.0266 | 0.2661 | 0.3609 |
| EfficientNetB1 [14] | 0.289 | 0.1404 | 0.0642 | 0.0286 | 0.271 | 0.3718 |
| ResNet50 [14] | 0.2637 | 0.1217 | 0.0496 | 0.0207 | 0.2437 | 0.3423 |
| MobileNetV2 [14] | 0.2106 | 0.064 | 0.0215 | 0.009 | 0.1794 | 0.2606 |
| CNN+RNN+ResNet-152 (Proposto) | 0.579 | 0.404 | 0.279 | 0.191 | 0.195 | 0.396 |
Tabela 5: Comparação de resultados para as pontuações BLEU, METEOR e ROUGE. Esta tabela apresenta uma comparação consolidada dos principais indicadores de avaliação para demonstrar a eficácia geral do modelo.
De acordo com a Tabela 5, EfficientNetB114 é melhor para METEOR, mas CNN+RNN+ResNet-152 é melhor para B1-B 4 e ROUGE. No geral, o resultado proposto é superior em todas as métricas BLEU e ROUGE em comparação com os métodos mencionados.
DISPONIBILIDADE DE DADOS:
Todos os dados brutos e arquivos de codificação associados a este estudo estão disponíveis nos arquivos suplementares.
No campo da inteligência artificial, legendar imagens é uma tarefa difícil. Legendas de imagens têm sido objeto de inúmeros estudos, e legendas agudas ou precisas ainda exigem o mais alto nível de precisão. Muitas técnicas de aprendizado de máquina podem ser usadas para alcançar o objetivo da legenda de imagens, e inúmeros estudos já utilizaram CNN, RNN e ResNet-152. No entanto, é necessário maior precisão e redução do tempo de processamento. O sistema proposto é construído usando a CNN como codificador, RNN como decodificador, Torch Vision como biblioteca e ResNet como modelo principal de treinamento. O ResNet utiliza a técnica de conexão skip para utilizar as camadas e alcançar melhor desempenho em comparação com outros modelos convencionais como Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2, entre muitosoutros 10, 11, 12, 13, 14.
As etapas críticas envolvidas no trabalho proposto são o uso de um filtro inteligente para limpar as imagens e, em seguida, a extração de características com todas as etapas principais. Sem extração precisa de características, não é possível alcançar o objetivo do modelo e, se o sistema não extrair corretamente as características, a precisão das pontuações métricas é afetada. A fase de treinamento, executada com análise profunda dos vetores de características e do mecanismo de atenção, desempenhou um papel vital na decodificação dos dados de teste. Há também mais uma etapa crítica envolvida no trabalho, que é atualizar o vocal. Quando novas palavras surgem durante o teste dos dados, essas palavras são adicionadas ao dicionário para melhorar o desempenho do modelo. Esses passos críticos desempenharam um papel vital para alcançar maior precisão, que foi maior do que a do modelo sugerido anteriormente, como o Método de Aumento de Modelos. O sistema treinou um modelo para o benchmark MSCOCO e obteve um modelo mais eficaz para legendar imagens.
Se o tamanho dos dados de teste aumentar, pode ser possível ter novas palavras relacionadas às imagens. Também pode causar irrelevância ao gerar legendas, e então pode ser tratado pelo mecanismo de atenção, que tem sido usado no modelo. O vocabulário pode ser atualizado por meio de um mecanismo de atenção que pode ser eficaz para avaliações posteriores. Pode ser considerado autoaprendizagem ou manejo de exceções. Como o modelo é treinado com MSCOCO, que contém milhares de imagens do mundo real, há muitos objetos que podem surgir e precisam ser atualizados a cada inferência.
Uma desvantagem desse trabalho é que, comparado com conjuntos de dados contemporâneos usados para treinamento, o modelo pode ter um desempenho ruim em imagens muito mais antigas, especialmente em preto e branco ou imagens históricas de baixa qualidade, devido a diferenças em características visuais, contraste e textura. Se as imagens forem de baixa resolução, fica mais difícil extrair as características precisas, e o ResNet-152 pode degradar a fase de codificação nesse caso. Também tem desempenho ruim em muitas imagens antigas, o que significa que essas imagens são da antiguidade por vetores de características ruins ou danificados. As limitações incluem avaliação de conjunto único e falta de validação cruzada.
Comparado às abordagens convencionais, o modelo proposto é melhor porque aprimora a extração de características, melhorando assim a geração de legendas de imagem. Filtragem inteligente melhora a fase de extração de recursos ou codificação, o que constrói melhor o modelo. O ResNet-152 também utiliza conexões de salto que aproveitam o tempo durante o treinamento. Portanto, a execução é muito mais rápida do que em outros modelos como oEfficientNetB0 14. O mecanismo de atenção também é um fator primário que melhora o desempenho do modelo.
A técnica pode ser usada em sistemas de recuperação de imagem, vigilância automatizada e tecnologias assistivas para pessoas com deficiência visual. À medida que a inteligência artificial avança rapidamente, é necessário aprimorar o sistema de recuperação de imagens, e essa técnica pode contribuir para isso. Com esse modelo, pessoas com deficiência visual podem obter assistência para ver o mundo traduzindo-o em fala. Existem várias aplicações importantes e potenciais da legenda de imagens.
Os autores afirmam que não possuem interesses financeiros ou relacionamentos pessoais concorrentes que possam ter influenciado o trabalho relatado neste artigo.
Agradecemos aos criadores dos conjuntos de dados MSCOCO por fornecerem os parâmetros utilizados neste estudo. Os autores afirmam que nenhum financiamento externo foi recebido para este estudo.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| AMD Ryzen série 5000 | AMD | 100-100000059WOF | A Série AMD Ryzen 5000 é uma linha de processadores de alto desempenho desenvolvida pela AMD, baseada na arquitetura Zen 3. Esses processadores são amplamente usados em desktops e laptops tanto para computação de uso geral quanto para tarefas exigentes, como processamento de dados e fluxos de trabalho de aprendizado de máquina. |
| GPU | NVIDIA | 4.71933E+12 | A NVIDIA GeForce GTX é uma série de unidades de processamento gráfico (GPUs) desenvolvidas pela NVIDIA, amplamente utilizadas tanto para jogos quanto para tarefas de computação de uso geral, como aprendizado profundo e processamento de imagens. |
| Intel Core i5 | Intel | BX8071514400F | Intel Core i5 é uma série de processadores de médio porte desenvolvida pela Intel, amplamente utilizada em computadores pessoais tanto para tarefas de uso geral quanto computacionais. |
| Python 3.10 | Fundação de Software Python | PEP 619 | Python é uma linguagem de programação interpretada de alto nível amplamente utilizada em computação científica, análise de dados e aprendizado de máquina. É conhecida por sua simplicidade, legibilidade e amplo ecossistema de bibliotecas. |
| PyTorch | 26.03-py3 | PyTorch é um framework de deep learning de código aberto desenvolvido pela Meta Platforms (anteriormente Facebook), amplamente utilizado para construir e treinar redes neurais em pesquisa e indústria. | |
| Visual Studio Code | Microsoft | Nenhum | Visual Studio Code (VS Code) é um editor de código leve e de código aberto desenvolvido pela Microsoft. É amplamente utilizado para desenvolvimento de software, incluindo projetos de aprendizado de máquina e deep learning. |
| Windows 11 | Microsoft | KB5083631 | O Windows 11 é um sistema operacional desenvolvido pela Microsoft, amplamente utilizado para computação geral, bem como para tarefas de desenvolvimento de software e aprendizado de máquina. |
Request permission to reuse the text or figures of this JoVE article
Request Permission