Geração de Legendas de Imagens Usando Abordagens de Deep Learning

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

Geração de Legendas de Imagens Usando Abordagens de Deep Learning

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este protocolo utiliza CNNs, RNNs e ResNets para legendagem de imagens, extraindo descrições das atividades, pessoas, objetos e outros elementos das imagens. Ele foi justificado com as pontuações das métricas BLEU, CIDEr, METEOR e ROUGE.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A geração de legendas de imagem é um esforço para fornecer uma descrição textual significativa que envolva uma imagem. As informações extraídas são relevantes para as atividades presentes nas imagens. A ResNet (Rede Residual) é bem conhecida por sua capacidade de classificar imagens, tendo desenvolvido representações hierárquicas profundas. A intenção deste artigo é usar o ResNet com vários filtros inteligentes para classificar imagens de forma mais profunda, permitindo a geração de descrições genuínas e significativas, altamente precisas em relação às legendas de referência. Aqui, o trabalho utiliza uma técnica de filtragem inteligente para aprimorar imagens, uma CNN para codificar características, treinamento de modelos e, posteriormente, uma RNN (Rede Neural Recorrente) para decodificar as características. O ResNet é um modelo muito eficaz para tarefas de visão computacional, especialmente classificação de objetos e análise semântica. A ResNet é bem conhecida por conexões residuais, que também são conhecidas como conexões de pular que resolvem o problema do gradiente nulo, que é um problema crucial no aprendizado profundo. Aqui, o benchmark MSCOCO (Microsoft Common Object in Context) é usado para treinar o modelo, que é um grande conjunto de dados com anotações de referência úteis para várias tarefas de visão computacional. O ResNet ajuda a aprimorar a capacidade de generalização, o que é particularmente útil para imagens diversas. De acordo com os resultados obtidos, as pontuações BLUE são B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEORO: 0,195; ROUGE: 0,396; e CIDEr: 0,6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nos campos de visão computacional e processamento de linguagem natural, a legendagem de imagens é uma tarefa crucial que extrai uma descrição da imagem e das ações que ela retrata. A intenção do modelo é compreender imagens e traduzir as informações em frases ou legendas^{significativas 1}. Todo o procedimento consiste em duas fases significativas: a primeira é a extração de características, onde é usado um modelo CNN; a segunda é a descrição da imagem usando um RNN e, entre elas, o ResNet é usado para análise semântica, geração de sequências e um mecanismo de atenção. O ResNet é muito diferente dos métodos baseados em templates ou dos módulos baseados em DenseNet porque utiliza conexões de salto que reduzem o tempo de execução enquanto melhoram o desempenho. Existem inúmeras aplicações da legenda de imagens, incluindo ajudar pessoas com deficiência visual, impulsionar plataformas de redes sociais, otimizar mecanismos de busca baseados em imagens, IA baseada em imagens (inteligência artificial) e muito mais^.

Na visão computacional, o reconhecimento de cenas é o processo de identificar e classificar o contexto geral ou ambiente da imagem, como uma praia, paisagem urbana, floresta ou escritório. Diferente do reconhecimento de objetos, que foca em itens individuais, o reconhecimento de cenas considera texturas, arranjos espaciais e relações entre objetos para entender o contexto mais amplo. Ele utiliza CNNs e Vision Transformers, modelos de aprendizado profundo treinados com grandes conjuntos de dados como Places365 e ImageNet. As aplicações incluem vigilância de segurança, realidade aumentada e virtual (AR e VR) para experiências imersivas, robótica para conscientização ambiental e veículos autônomos para navegação. Apesar dos avanços, problemas como mudanças de pontos de vista, oclusões e iluminação em mudança tornam o reconhecimento de cenas um tema quente em pesquisa em visão computacional e inteligência artificial. Outro problema fundamental na visão computacional é o reconhecimento de cena.

O EnsCaption, um modelo de rede adversarial generativa dupla, foi proposto para melhorar uma técnica de conjunto^{geração-recuperação 3}. Esse layout permite métodos harmoniosos de legendagem de imagens baseados em procriação que geram legendas alinhadas aos objetivos existentes. Enquanto a técnica baseada em recuperação utiliza um modelo baseado em posição ou gradação para selecionar o melhor modelo para extrair informações com mais precisão do que os outros na consulta baseada em imagem. Um mapeamento de imagens para um "espaço de significado" foi introduzido usando componentes visuais como objetos, atividades e cenas, que foram então alinhados com os modelos verbais^{correspondentes 4}. Usando as correlações e qualidades encontradas nas imagens, a abordagem constrói frases. Frases expressam informações de forma rica, condensada e sutil. A geração de legendas baseada em modelos foi aprimorada incorporando conhecimento de senso comum para melhorar a compreensão^{semântica 5}. Essa técnica estendeu o alcance do molde além das características diretas da imagem, abrangendo associações inferidas. Este trabalho utiliza um conjunto de dados existente de detecção de objetos para extrair 16.000 declarações de bom senso para cada categoria anotada. Além disso, a generalização foi alcançada usando o WordNet, permitindo a indução de um grande número de fatos sobre objetos antes^{inéditos 6}. Oferece uma revisão de uma taxonomia organizada de técnicas de deep learning para legendas de imagens, incluindo tópicos como mecanismos de atenção, táticas de aprendizado por reforço e frameworks codificador-decodificador. Além de abordar questões como alucinações de objetos e compreensão contextual, também examina conjuntos de dados e critérios de avaliação comumente utilizados. Os autores apontam áreas para estudos adicionais, como a melhoria das técnicas de pré-treinamento visão-linguagem e a redução do viés do conjunto de dados. Uma abordagem de análise semântica baseada em redes neurais convolucionais e redes neurais recorrentes foi explorada para tarefas de legendagem^{de imagens 7}. Legendas de imagens são um dos usos mais conhecidos, permitindo que computadores produzam frases evocativas que encapsulam uma imagem. Para fornecer descrições semânticas significativas e de alto nível, esse procedimento envolve mais do que apenas identificar objetos e cenas; Também envolve examinar seus estados, características e interações. Apesar da complexidade e dificuldade inerentes à legendagem das imagens, os acadêmicos alcançaram avanços impressionantes na área. As três principais técnicas de legendagem de imagens baseadas em redes neurais profundas abordadas neste estudo são baseadas em CNN-RNN, CNN-CNN e frameworks de aprendizado por reforço. Foi introduzido um modelo treinável de ponta a ponta para legendas de imagens, integrando visão computacional e processamento de linguagem natural para gerar descrições coerentes das^{imagens 8}. Para criar uma legenda, ele usa uma estrutura codificador-decodificador, na qual um LSTM decodifica uma imagem em uma sequência de palavras após uma CNN pré-treinada a codificar em um vetor de características. Apesar de suas desfalhas, incluindo dificuldades com cenários intrincados, a contribuição do jornal para trabalhos de linguagem visual ainda é^fundamental.

ResNet é a rede neural convolucional (CNN) usada no modelo de legenda de imagem do trabalho proposto para extrair informações visuais ricas das imagens de entrada. O ResNet serve como um codificador para produzir um vetor de características representando a imagem, que geralmente é usado em uma arquitetura codificador-decodificador. O decodificador, que gera legendas descritivas palavra a palavra, recebe essas características e frequentemente é implementado usando uma rede neural recorrente (RNN), como LSTM ou GRU. Um mecanismo de atenção pode ser adicionado para melhorar o desempenho, permitindo que o decodificador foque em regiões específicas da imagem à medida que gera cada palavra. Para maximizar a precisão das legendas, o modelo é treinado de ponta a ponta usando uma função de perda como cross-entropy e um conjunto de dados como COCO. O aprendizado por transferência e o ajuste fino do ResNet podem melhorar a extração de recursos, fortalecendo ainda mais o modelo e permitindo que ele produza legendas de alta qualidade e contextualmente adequadas em uma ampla gama de imagens. Na legenda de imagens, o ResNet é frequentemente preferido em relação a outros modelos porque resolve efetivamente o problema do gradiente nulo, um problema comum em redes neurais profundas. Isso é possível graças às suas novas abordagens de aprendizado residual, que treinam redes consideravelmente mais profundas sem sacrificar o desempenho, usando conexões de salto para facilitar o fluxo de gradiente durante a retropropagação. O perceptron multicamada, uma rede neural feedforward totalmente conectada, está associado à camada treinável. A RNN então decodifica legendas usando a camada softmax, produzindo legendas candidatas. A função de ativação é f(x), a função identidade direta é f(x) + x, e x é considerada identidade, ilustrado na Figura 1. Nesse caso, o sistema usa blocos residuais para calibrar o modelo durante o treinamento, e suas entradas passam tanto por conexões de peso quanto por conexões de salto, também chamadas de atalhos de identidade.

Figura 1: Rede de conexão residual. Esta figura ilustra a arquitetura de uma rede residual, destacando conexões de salto que melhoram o fluxo de gradiente e mitigam gradientes nulos durante o treinamento profundo de rede. Por favor, clique aqui para ver uma versão ampliada desta figura.

Assuma que P_l é a saída; I é o número de blocos residuais; ReLU deveria ser um bloco usual se for próximo de 1, mas se não for igual a 1, então pode ser calculado como:

Equação 1 (1)

Aqui, b é a variável aleatória e k é a função de mapeamento.

Equação 2 (2)

Aqui s_l é considerado como a probabilidade de sobrevivência do sistema proposto;

Equação 3 (3)

A regra resultante para a probabilidade de sobrevivência como;

Equação 4 (4)

Onde S_L supostamente dá probabilidade de sobrevivência, assim como L é suposto é o total não. de quarteirões.

Legenda de imagens é uma tarefa desafiadora que combina processamento de linguagem natural e visão computacional para produzir legendas textuais descritivas para imagens. Para isso, é preciso compreender e interpretar o conteúdo visual de uma imagem e traduzi-la em frases coerentes dentro do seu contexto. Nesse campo, ter conjuntos de dados extensos e diversos é crucial para avaliação e treinamento de modelos. Esses conjuntos de dados oferecem uma vasta gama de imagens e anotações relacionadas, que são cruciais para o desenvolvimento e teste de algoritmos de legenda de imagens. Os conjuntos de dados mais usados são MSCOCO e Flickr30k, que contêm milhões de imagens e apresentam vários desafios no processamento de imagens. O MSCOCO é muito maior que o Flickr30k11. O conjunto de dados MS COCO foi dividido nos seguintes conjuntos: 82.783 imagens para treinamento, 40.504 para validação e 40.775 para testes.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

A implementação foi feita com o modelo principal, que é o ResNet-152, junto com um codificador como CNN, um decodificador como RNN e os recursos da Tabela de Materiais.

ResNet-152
O ResNet é considerado a espinha dorsal para extrair recursos de forma mais eficiente na legenda de imagens. O ResNet proporcionou melhor desempenho de treinamento do que outros modelos, pois resolveu o problema do gradiente nulo e o resolveu de forma eficiente. Vários objetos podem aparecer nas imagens, e o modelo precisa entender suas relações para uma legenda melhor. Por isso, pode ser considerado uma extração hierárquica de características. O ResNet-152 pode lidar com tarefas complexas de visão computacional. A principal vantagem desse modelo é o uso eficaz de conexões residuais ou de salto. É altamente eficaz para resolver o problema do gradiente nulo. Ele pode aprender recursos complexos e robustos para alcançar maior precisão. O ResNet-152 seguiu um projeto de gargalo que reduziu o custo computacional e o tornou mais eficaz do que outras arquiteturas, como o VGG-16. Possui uma espinha dorsal proeminente de aprendizado por transferência, adequada para modelos pré-treinados e tarefas variadas, como detecção de objetos e segmentação de dados. A conexão de salto acelerou o treinamento e o tornou mais estável. Comparado ao modelo baseado em transformador, que usa um mecanismo de autoatenção para entender dados sequenciais, o ResNet é bastante diferente. Um modelo baseado em transformador requer uma grande quantidade de dados para um entendimento profundo dos dados textuais, produzindo resultados eficazes, mas rodando um pouco mais lento. A motivação para escolher o ResNet são suas conexões de salto, que aceleram a execução com uma melhoria significativa nos resultados. No campo das legendas de imagens, o ResNet é usado para extrair as características que representam o objeto e a ação realizada na imagem. O ResNet usava uma rede residual que aproveitava conexões de salto. Aqui, o bloco residual pode ser calculado com referência da entrada Z como:

Equação 5 (5)

Onde Z é considerado a entrada do bloco residual.
Equação 6 é uma função residual que envolve normalização em lote, camadas convolucionais e ativação do ReLu. {x_i} é considerado o peso de aprendizagem das camadas correspondentes. Z também define a identidade da conexão de salto, que também resolve o problema do gradiente nulo. O ResNet é geralmente usado como extrator de características para mapeamento visual de características a partir das imagens. Aqui, I é considerado como a imagem de entrada para representar os mapas de características em uma representação visual alta de características V.

Equação 8 (6)

Antes de extrair características, a imagem deve ser pré-processada para melhorar a extração de características. É considerada uma imagem bruta coletada do benchmark MSCOCO, então o primeiro passo no pré-processamento é redimensioná-la e normalizá-la.

Equação 9 (7)

Equação 10 (8)

Onde H^lé a altura da imagem e W^l é o peso da imagem. Eu_redimensiono a imagem redimensionada.

Para normalizar o valor do pixel a partir do alcance [-1, 1] ou [0, 1]

Equação 15 (9)

Onde μ é considerado como o valor médio do pixel σ é considerado o desvio padrão da imagem referenciada. A imagem normalizada agora é processada para extração de características.

Equação 18 (10)

Onde Equação 19 , que é considerado como o vetor de características. Quando a legenda da linha é tokenizada, ela é convertida para o formato numérico.

Equação 20 (11)

Se a legenda se dividir em palavras, então

Equação 21 (12)

Aqui, o vocabulário desempenha um papel importante, com cada palavra identificada de forma única por indexação baseada em inteiros.

Equação 22 (13)

Onde V_c é considerado uma função de vocabulário; é preciso garantir que todas as sequências tenham comprimento uniforme; assim, a altura máxima ou comprimento ideal é considerada como L_máx.

Equação 25 (14)

Agora o token é incorporado como;

Equação 26 (15)

para j = 1,2,3, ... .., L_máximo

Onde Equação 28 é considerado como um vetor embutido com K dimensões; agora o decodificador deve ser usado para decodificar a legenda para geração de legendas candidatas, que é baseada em um modelo probabilístico.

Equação 29 (16)

Onde w_j é uma obra no carimbo de tempo j, w_{1: j-1} é a palavra gerada no carimbo de tempo j-1 e_{e j-1} é a característica embutida com a palavra anterior wj-1. A cada carimbo de tempo, a rede previu a próxima palavra ou a probabilidade é calculada sobre o vocabulário.

Equação 35 (17)

Onde w_é o peso de saída e b_é o viés de saída. Assim, a probabilidade máxima é calculada como

Equação 38 (18)

O comprimento máximo da legenda candidata é calculado assim que a palavra é recebida ou identificada como um token especial como e . A busca por feixe também é útil para selecionar a melhor legenda candidata, então a sequência é:

Equação 39 (19)

Equação 40 (20)

Assim, a legenda candidata gerada é a sequência de Equação 41

Memória de Curto Prazo Longo é geralmente usada na geração de sequências. O LSTM utiliza uma CNN como extrator de características e gera palavras sequencialmente para criar frases significativas. O LSTM calcula a porta de esquecimento em cada carimbo de tempo T.

Equação 42

Onde f_t é considerado como gate de esquecimento, σ é considerado como função de ativação, w_f é considerado como peso e b_f como viés,

Y_t é considerado como vetor de característica de entrada, H_T-1 é considerado como estado oculto.

Equação 48 (22)

Equação 49 (23)

J_t é considerado como entrada, Equação 106 é considerado como estado candidato, w_j e_{w c} são considerados como peso para entrada e estado candidato, respectivamente, b_j e b_c ou considerados como viés.

Equação 54 (24)

C_t é considerado como todos os estados, C_t-1 é considerado como estado anterior.

Equação 57 (25)

O_t é considerado como saída, w_o como peso e b_o como viés. Para inicializar os estados oculto e célula, são necessárias as seguintes computações.

Equação 61 (26)

Equação 62 (27)

Onde h_i e C_i são considerados como estado oculto e estado da célula, respectivamente, w_h e w_c são pesos para o estado oculto e da célula da vela, respectivamente, b_c e b_h são considerados como viés, k é considerado como extrator de características. A sequência da legenda é calculada como:

Equação 69 (28)

Onde T é o comprimento da legenda gerada.

254 × 254 × 3 é a imagem redimensionada ou pré-processada, e I é considerado como a imagem de entrada.

Equação 71 (29)

Onde W e b são considerados como peso e viés, respectivamente, I é considerado como características de entrada, e ReLU é a função de ativação. É o cálculo da camada convolucional. Agora a camada de pooling pode ser calculada como:

Equação 72 (30)

Após finalizar a camada de pooling; A camada totalmente conectada pode ser mapeada como:

Equação 73 (31)

Onde w_f e b_f são considerados como peso e viés da rede, respectivamente.

Equação 74 (32)

Equação 75 (33)

Onde N é considerado como a região espacial e d como a dimensão da característica.

Equação 76 (34)

Equação 77 (35)

Onde w_h e b_h são considerados como peso e viés do estado oculto, respectivamente, w_c e b_c considerados como peso e viés do estado celular, respectivamente. A legenda pode ser gerada como:

Equação 78 (36)

Codificador e decodificador
O sistema proposto codifica os dados para tradução automática usando uma CNN. Nesse caso, a entrada e a saída são sequências, mas podem diferir em comprimento. Um de cada vez, a máquina codifica e decodifica cada vetor. Usando um vetor como ponto de partida, a máquina começa a codificar e decodificar, e continua calculando até a distribuição de probabilidade condicional final. Um exemplo é o seguinte:

Equação 80 (37)

Isso é considerado a distribuição de probabilidade.

O sistema pode codificar os dados na forma de uma imagem vetorial, e eles podem ser posteriormente decodificados. fc_n (I) é considerado o modelo de imagem para compreensão de imagens.

Equação 83 (38)

Equação 84 (39)

Equação 85 (40)

S₁ é a iteração subsequente de S₀, e S₂ é a iteração subsequente de S₁. Pode-se dizer que toda entrada depende da saída da camada anterior. As imagens são convertidas em vetores pela CNN e enviadas para a camada seguinte, que percorre todos os vetores. Aqui, um mecanismo de atenção é usado para organizar sequencialmente as palavras em uma frase significativa após a RNN decodificar os vetores em palavras.

Equação 86 (41)

Onde T é o comprimento da entrada.

Equação 87 (42)

Equação 88 (43)

k₁, k₂, k₃, k₄, ......, k_t-1 são estados de decodificação ocultos.

Figura 2: Modelo de codificação e decodificação. Esta figura apresenta a estrutura codificador–decodificador usada para legendas de imagens, mostrando como as características da imagem são codificadas em representações vetoriais e posteriormente decodificadas em descrições textuais sequenciais. Por favor, clique aqui para ver uma versão ampliada desta figura.

Modelo de processo
Veja a Figura 3, que mostra o fluxograma dos módulos de treinamento, onde o conjunto de dados e suas legendas de verdade foram carregados primeiro. Após a normalização dos dados para a codificação CNN, o modelo ResNet é inicializado e treinado usando as características extraídas. RNN e as palavras específicas do sistema marcadas com marcadores de início e fim podem então ser usadas para decodificar a legenda. O sistema completa a extração se a palavra final for encontrada, e N for o número total de palavras na legenda candidata.

Figura 3: Fluxograma do modelo de treinamento. Esta figura descreve o processo passo a passo envolvido no treinamento do modelo, incluindo pré-processamento de dados, extração de características, aprendizado de modelos e otimização. Por favor, clique aqui para ver uma versão ampliada desta figura.

O fluxograma do modelo de teste é mostrado na Figura 4, onde o sistema primeiro carrega os modelos do codificador e do decodificador, depois carrega o modelo ResNet e os dados de entrada para extração das legendas. Se não houver erros de decodificação, a inferência pode ser feita da primeira à última palavra. Após a última palavra ser alcançada, palavras decodificadas podem ser obtidas e uma legenda pode ser criada empregando um mecanismo de atenção para organizar as palavras sequencialmente de forma significativa. O tamanho da feixe do modelo de treinamento é de cinco com comprimento máximo de 20, e o tamanho do lote é de 128 com 20 épocas.

Figura 4: Fluxograma do modelo de teste. Esta figura mostra o fluxo de trabalho de teste, demonstrando como as imagens de entrada são processadas pelo modelo treinado para gerar legendas e avaliar o desempenho. Por favor, clique aqui para ver uma versão ampliada desta figura.

Algoritmo de legenda de imagens ResNet-152
Inicialize os parâmetros de entrada e saída, e aqui a entrada é tomada como o conjunto de imagens MSCOCO como I = (i₁, i₂, i₃, ....... i_N) junto com a anotação J = (j₁, j₂, j₃, ......... j_N) e a saída é calculada como legendas. Na primeira etapa, é necessária a entrada, depois pré-processar as imagens redimensionando a proporção de aspecto como

Equação 92 (44)

Onde w e h são a largura e altura originais da imagem, w_novo e h_novo são as dimensões redimensionadas, T_s é considerado um tamanho alvo predefinido (T_s = 224), max(w, h) define a maior dimensão, que foi escalada para manter a proporção de aspecto.

Após a extração de características, é necessário declarar o bloco identidade como

Equação 100 (45)

Depois, inicialize os parâmetros como tamanho do lote, número de épocas, W_ocultocomo peso para camadas ocultas, W_saída como camada de saída, altura B e viésB como viés. Uma vez feita a inicialização, é necessário calcular a saída da camada convolucional.

Equação 101 (46)

Pode ser considerado um bloco ReLU normal se b_l for equivalente a 1. Mas se b_l não for igual a 1 nem equivalente a 0, então seria;

Equação 102 (47)

Depois, calcule a viabilidade da sobrevivência por

Equação 103 (48)

Onde F_K é considerado como a viabilidade de sobrevivência do sistema, e K é considerado como a representação do número total de blocos no modelo. Depois, calcule a distribuição de probabilidade

Equação 104 (49)

Uma vez calculada a distribuição de probabilidade, constrói o modelo para acessá-la e decodificar os dados usando.

Equação 105 /9500

k₁, k₂, k₃, k₄, ......, k_t-1 são estados de decodificação ocultos.

Ao acessar o modelo, é necessário aplicar mecanismos de atenção para a geração de legendas que avaliem a legenda candidata em relação à legenda de referência; as métricas finais podem então ser avaliadas usando BLEU, METEOR, CIDEr e ROUGE.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Especificações de software e ambiente
Python 3.10 foi a principal linguagem de programação usada para os experimentos. O Visual Studio Code foi usado para configurar o ambiente de desenvolvimento (VS Code). Bibliotecas importantes usadas nessa pesquisa incluem Pickle para serialização de dados, multiprocessamento para processamento paralelo, glob para manuseio de arquivos e PyTorch para desenvolvimento de modelos de aprendizado profundo. A configuração de hardware incluía 256 GB de armazenamento, 8 GB...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

No campo da inteligência artificial, legendar imagens é uma tarefa difícil. Legendas de imagens têm sido objeto de inúmeros estudos, e legendas agudas ou precisas ainda exigem o mais alto nível de precisão. Muitas técnicas de aprendizado de máquina podem ser usadas para alcançar o objetivo da legenda de imagens, e inúmeros estudos já utilizaram CNN, RNN e ResNet-152. No entanto, é necessário maior precisão e redução do tempo de processamento. O sistema proposto é construído usando a CNN ...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Os autores afirmam que não possuem interesses financeiros ou relacionamentos pessoais concorrentes que possam ter influenciado o trabalho relatado neste artigo.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Agradecemos aos criadores dos conjuntos de dados MSCOCO por fornecerem os parâmetros utilizados neste estudo. Os autores afirmam que nenhum financiamento externo foi recebido para este estudo.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	A série AMD Ryzen 5000 é uma linha de processadores de alto desempenho desenvolvida pela AMD, baseada na arquitetura Zen 3. Esses processadores são amplamente utilizados em desktops e laptops para computação de uso geral e tarefas exigentes, como processamento de dados e fluxos de trabalho de aprendizado de máquina.
GPU	NVIDIA	4.71933E+12	A NVIDIA GeForce GTX é uma série de unidades de processamento gráfico (GPUs) desenvolvidas pela NVIDIA, amplamente utilizadas para jogos, bem como para tarefas de computação de uso geral, como aprendizado profundo e processamento de imagens.
Intel Core i5	Intel	BX8071514400F	Intel Core i5 é uma série de processadores de médio alcance desenvolvida pela Intel, amplamente utilizada em computadores pessoais para tarefas de uso geral e computacionais.
Python 3.10	Python Software Foundation	PEP 619	Python é uma linguagem de programação interpretada de alto nível amplamente utilizada em computação científica, análise de dados e aprendizado de máquina. É conhecida por sua simplicidade, legibilidade e extenso ecossistema de bibliotecas.
PyTorch	Facebook	26.03-py3	PyTorch é uma estrutura de aprendizado profundo de código aberto desenvolvida pela Meta Platforms (anteriormente Facebook), amplamente utilizada para construção e treinamento de redes neurais em pesquisa e indústria.
Visual Studio Code	Microsoft	None	Visual Studio Code (VS Code) é um editor de código de código aberto e leve desenvolvido pela Microsoft. É amplamente utilizado para desenvolvimento de software, incluindo projetos de aprendizado de máquina e aprendizado profundo.
Windows 11	Microsoft	KB5083631	Windows 11 é um sistema operacional desenvolvido pela Microsoft, amplamente utilizado para computação geral, bem como para tarefas de desenvolvimento de software e aprendizado de máquina.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Geração de Legendas de Imagens Usando Abordagens de Deep Learning

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles