Génération de légendes d’images à l’aide d’approches d’apprentissage profond

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

Génération de légendes d’images à l’aide d’approches d’apprentissage profond

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ce protocole utilise des CNN, RNN et ResNets pour le sous-titrage des images, en extrayant les descriptions des activités, des personnes, des objets et d’autres éléments des images. Elle a été justifiée par des scores BLEU, CIDEr, METEOR et ROUGE.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La création de légendes d’image est un effort visant à fournir une description textuelle significative impliquant une image. Les informations extraites sont pertinentes pour les activités présentes dans les images. ResNet (Réseau Résiduel) est bien connu pour sa capacité à classer les images, ayant développé des représentations hiérarchiques profondes. L’objectif de cet article est d’utiliser ResNet avec divers filtres intelligents pour classifier les images plus en profondeur, permettant ainsi la génération de descriptions authentiques et significatives, très précises par rapport aux légendes de référence. Ici, le travail utilise une technique de filtrage intelligent pour améliorer les images, un CNN pour encoder des fonctionnalités, l’entraînement des modèles, puis un RNN (Réseau Neuronal Récurrent) pour décoder les caractéristiques. ResNet est un modèle très efficace pour les tâches de vision par ordinateur, en particulier la classification des objets et l’analyse sémantique. ResNet est bien connu pour ses connexions résiduelles, également appelées connexions sautées qui résolvent le problème du gradient nul, un problème crucial en apprentissage profond. Ici, le benchmark MSCOCO (Microsoft Common Object in Context) est utilisé pour entraîner le modèle, qui est un grand ensemble de données avec des annotations de référence utiles pour diverses tâches de vision par ordinateur. ResNet aide à améliorer la capacité de généralisation, ce qui est particulièrement utile pour des images diverses. Selon les résultats obtenus, les scores BLEU sont B1 : 0,579, B2 : 0,404, B3 : 0,279, B4 : 0,191 ; METEOR : 0,195 ; ROUGE : 0,396 ; et CIDEr : 0,6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dans les domaines de la vision par ordinateur et du traitement du langage naturel, le sous-titrage d’images est une tâche cruciale qui permet d’extraire une description de l’image et des actions qu’elle représente. L’objectif du modèle est de comprendre les images et de traduire ces informations en phrases ou légendes^{pertinentes 1}. L’ensemble de la procédure se compose de deux phases importantes : la première est l’extraction des caractéristiques, où un modèle CNN est utilisé ; la seconde est la description d’image à l’aide d’un RNN et, entre les deux, ResNet est utilisé pour l’analyse sémantique, la génération de séquences et un mécanisme d’attention. ResNet est très différent des méthodes basées sur des modèles ou des modules basés sur DenseNet car il utilise des connexions de saut qui réduisent le temps d’exécution tout en améliorant les performances. Il existe de nombreuses applications du sous-titrage d’images, notamment l’aide aux personnes malvoyantes, le renforcement des plateformes de réseaux sociaux, l’optimisation des moteurs de recherche basés sur des images, l’IA basée sur des images (intelligence artificielle), et bien plus^encore.

En vision par ordinateur, la reconnaissance de scène est le processus d’identification et de classification du contexte général ou de l’environnement de l’image, tel qu’une plage, une ville, une forêt ou un bureau. Contrairement à la reconnaissance d’objets, qui se concentre sur des objets individuels, la reconnaissance de scène prend en compte les textures, les agencements spatiaux et les relations entre objets afin de comprendre le contexte plus large. Il utilise des CNN et des Vision Transformers, des modèles d’apprentissage profond entraînés sur de grands ensembles de données tels que Places365 et ImageNet. Les applications incluent la surveillance de sécurité, la réalité augmentée et virtuelle (RA et VR) pour des expériences immersives, la robotique pour la sensibilisation environnementale et les véhicules autonomes pour la navigation. Malgré les avancées, des problèmes tels que les points de vue changeants, les occlusions et l’éclairage changeant font de la reconnaissance de scènes un sujet brûlant dans la recherche en vision par ordinateur et en intelligence artificielle. Un autre problème fondamental en vision par ordinateur est la reconnaissance de scène.

EnsCaption, un modèle de réseau antagoniste génératif dual, a été proposé pour améliorer une technique d’ensemble^{génération-récupération 3}. Cette mise en page permet des méthodes de légende d’images harmonieuses, basées sur la procréation, qui génèrent des légendes alignées sur les objectifs existants. Tandis que la technique basée sur la récupération utilise un modèle basé sur la position ou l’étalonnage pour sélectionner le meilleur modèle afin d’extraire l’information avec plus de précision que les autres dans la requête basée sur l’image. Une correspondance des images à un « espace de sens » a été introduite à l’aide de composants visuels tels que des objets, des activités et des scènes, qui étaient ensuite alignés avec des modèles verbaux^{correspondants 4}. En utilisant les corrélations et qualités trouvées dans les images, l’approche construit des phrases. Les phrases expriment l’information de manière riche, condensée et subtile. La génération de sous-titres basée sur des modèles a été améliorée en intégrant des connaissances de bon sens pour améliorer la compréhension^{sémantique 5}. Cette technique étendait la portée du modèle au-delà des caractéristiques directes de l’image pour englober les associations déduites. Ce travail utilise un ensemble de données existant de détection d’objets pour extraire 16 000 énoncés de bon sens pour chaque catégorie annotée. De plus, la généralisation a été réalisée à l’aide de WordNet, permettant l’induction d’un grand nombre de faits concernant des objets jusque-là^{invisibles 6}. Propose une revue d’une taxonomie organisée des techniques d’apprentissage profond pour le sous-titrage des images, incluant des sujets tels que les mécanismes d’attention, les tactiques d’apprentissage par renforcement et les cadres encodeur-décodeur. En plus de traiter des questions telles que les hallucinations d’objets et la compréhension contextuelle, il examine également les ensembles de données couramment utilisés et les critères d’évaluation. Les auteurs mettent en avant des domaines à étudier plus près, tels que l’amélioration des techniques de pré-entraînement vision-langage et la réduction du biais de jeu de données. Une approche d’analyse sémantique basée sur les réseaux de neurones convolutionnels et les réseaux neuronaux récurrents a été explorée pour les tâches de sous-titrage^{d’images 7}. La légende d’images est l’une des utilisations les plus connues, permettant aux ordinateurs de produire des phrases évocatrices qui encapsulent une image. Pour fournir des descriptions sémantiques significatives et de haut niveau, cette procédure implique plus que l’identification d’objets et de scènes ; Cela implique également d’examiner leurs états, leurs caractéristiques et leurs interactions. Malgré la complexité et la difficulté inhérentes à la légende d’images, les universitaires ont réalisé des progrès impressionnants dans ce domaine. Les trois principales techniques de sous-titrage d’images basées sur des réseaux de neurones profonds abordées dans cette étude sont les frameworks basés sur CNN-RNN, CNN-CNN et l’apprentissage par renforcement. Un modèle entraînable de bout en bout pour le sous-titrage d’images a été introduit, intégrant la vision par ordinateur et le traitement du langage naturel pour générer des descriptions cohérentes des^{images 8}. Pour créer une légende, il utilise un cadre encodeur-décodeur dans lequel un LSTM décode une image en une chaîne de mots après qu’un CNN pré-entraîné l’ait encodée en un vecteur de caractéristiques. Malgré ses inconvénients, notamment les difficultés avec les décors complexes, la contribution de l’article aux tâches de vision et de langage reste fondamentale⁹.

ResNet est le réseau de neurones convolutionnel (CNN) utilisé dans le modèle de sous-titrage d’images proposé pour extraire des informations visuelles riches à partir des images d’entrée. ResNet sert d’encodeur pour produire un vecteur de caractéristiques représentant l’image, ce qui est généralement utilisé dans une architecture encodeur-décodeur. Le décodeur, qui génère des légendes descriptives mot par mot, reçoit ces caractéristiques et est souvent implémenté à l’aide d’un réseau de neurones récurrent (RNN), tel que LSTM ou GRU. Un mécanisme d’attention peut être ajouté pour améliorer les performances en permettant au décodeur de se concentrer sur des régions spécifiques de l’image au fur et à mesure de la génération de chaque mot. Pour maximiser la précision des sous-titres, le modèle est entraîné de bout en bout à l’aide d’une fonction de perte telle que l’entropie croisée et d’un jeu de données comme COCO. L’apprentissage par transfert et l’ajustement fin ResNet peuvent améliorer l’extraction de fonctionnalités, renforçant davantage le modèle et lui permettant de produire des légendes de haute qualité et contextuellement adaptées sur une large gamme d’images. En matière de légendes d’images, ResNet est souvent préféré à d’autres modèles car il traite efficacement le problème du gradient nul, un problème courant dans les réseaux de neurones profonds. Cela est rendu possible grâce à ses nouvelles approches d’apprentissage résiduel, qui entraînent des réseaux beaucoup plus profonds sans sacrifier la performance en utilisant des connexions de saut pour faciliter l’écoulement du gradient lors de la rétropropagation. Le perceptron multicouche, un réseau neuronal feed-forward entièrement connecté, est associé à la couche entraînable. La RNN décode ensuite les sous-titres à l’aide de la couche softmax, produisant ainsi des sous-titres candidats. La fonction d’activation est f(x), la fonction identité directe est f(x) + x, et x est considéré comme identité, illustré à la Figure 1. Dans ce cas, le système utilise des blocs résiduels pour calibrer le modèle pendant l’entraînement, et ses entrées passent à la fois par les connexions de poids et les connexions de saut, également appelées raccourcis d’identité.

Figure 1 : Réseau de connexion résiduelle. Cette figure illustre l’architecture d’un réseau résiduel, en mettant en évidence les connexions de saut qui améliorent le flux de gradient et atténuent les gradients nuls lors de l’entraînement en réseau profond. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Supposons que P_l soit la sortie ; L est le numéro de blocs résiduels ; ReLU est censé être un bloc habituel s’il est proche de 1, mais s’il n’est pas égal à 1, alors il peut être calculé comme suit :

Équation 1 (1)

Ici, b est la variable aléatoire, et k est la fonction de mappage.

Équation 2 (2)

Ici, s_l est considéré comme la probabilité de survie du système proposé ;

Équation 3 (3)

La règle résultante pour la probabilité de survie est :

Équation 4 (4)

Où_{S L} est censé avoir la probabilité de survie et L est censé égaler le non total. de blocs.

Le légende d’images est une tâche complexe qui combine traitement du langage naturel et vision par ordinateur pour produire des légendes textuelles descriptives pour les images. Pour cela, il faut comprendre et interpréter le contenu visuel d’une image et le traduire en phrases cohérentes dans son contexte. Dans ce domaine, disposer de jeux de données étendus et diversifiés est crucial pour l’évaluation et l’entraînement des modèles. Ces ensembles de données offrent une vaste gamme d’images et d’annotations associées, essentielles pour développer et tester des algorithmes de sous-titrage d’images. Les ensembles de données les plus fréquemment utilisés sont MSCOCO et Flickr30k, qui contiennent des millions d’images et posent divers défis dans le traitement d’images. MSCOCO est bien plus grand que Flickr30k11. L’ensemble de données MS COCO a été divisé en les ensembles suivants : 82 783 images pour l’entraînement, 40 504 pour la validation et 40 775 pour les tests.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L’implémentation a été réalisée avec le modèle principal, qui est ResNet-152, ainsi qu’un encodeur comme CNN, un décodeur comme RNN, et les ressources issues de la Table of Materials.

ResNet-152
ResNet est considéré comme la colonne vertébrale pour extraire plus efficacement les fonctionnalités dans le sous-titrage des images. ResNet offrait de meilleures performances d’entraînement que les autres modèles, car il résolvait efficacement le problème du gradient nul. Divers objets peuvent apparaître dans les images, et le modèle doit comprendre leurs relations pour une meilleure légende. C’est pourquoi on peut la considérer comme une extraction de caractéristiques hiérarchique. ResNet-152 peut gérer des tâches complexes de vision par ordinateur. L’avantage clé de ce modèle est l’utilisation efficace des connexions résiduelles ou de saut. Il est très efficace pour résoudre le problème du gradient nul. Il peut apprendre des fonctionnalités complexes et robustes pour obtenir une plus grande précision. ResNet-152 suivait une conception goulot d’étranglement qui réduisait les coûts de calcul et le rendait plus efficace que d’autres architectures, telles que VGG-16. Il dispose d’une infrastructure importante adaptée à l’apprentissage par transfert adaptée aux modèles pré-entraînés et à diverses tâches telles que la détection d’objets et la segmentation des données. La connexion à saut a accéléré l’entraînement et l’a rendu plus stable. Comparé au modèle basé sur un transformateur, qui utilise un mécanisme d’auto-attention pour comprendre les données séquentielles, ResNet est assez différent. Un modèle basé sur un transformateur nécessite une grande quantité de données pour une compréhension approfondie des données textuelles, ce qui donne des résultats efficaces mais fonctionne un peu plus lentement. La motivation pour choisir ResNet réside dans ses connexions de saut, qui accélèrent l’exécution avec une amélioration significative des résultats. Dans le domaine du légende d’image, ResNet est utilisé pour extraire les caractéristiques représentant l’objet et l’action effectuée dans l’image. ResNet utilisait un réseau résiduel qui exploitait les connexions de saut. Ici, le bloc résiduel peut être calculé avec référence de l’entrée Z comme suit :

Équation 5 (5)

Où Z est considéré comme l’entrée du bloc résiduel.
Équation 6 est une fonction résiduelle qui implique la normalisation par lots, les couches convolutionnelles et l’activation de ReLu. {_{x i}} est considéré comme le poids d’apprentissage des couches correspondantes. Z définit également l’identité de connexion de saut, ce qui résout également le problème du gradient nul. ResNet est généralement utilisé comme extracteur de caractéristiques pour la cartographie visuelle des caractéristiques à partir des images. Ici, I est considéré comme l’image d’entrée pour représenter les mapes de caractéristiques dans une haute représentation visuelle des caractéristiques V.

Équation 8 (6)

Avant d’extraire les caractéristiques, l’image doit être prétraitée pour améliorer l’extraction des caractéristiques. Il est considéré comme une image brute collectée à partir du benchmark MSCOCO, donc la première étape du prétraitement est de la redimensionner et de la normaliser.

Équation 9 (7)

Équation 10 (8)

Où H^lest la hauteur de l’image et W^l est le poids de l’image. Je_{redimensionne} l’image redimensionnée.

Normaliser la valeur des pixels à partir de la plage [-1, 1] ou [0, 1]

Équation 15 (9)

Où μ est considéré comme la valeur moyenne du pixel σ est considéré comme l’écart-type de l’image référencée. L’image normalisée est désormais traitée davantage pour l’extraction des caractéristiques.

Équation 18 (10)

Où Équation 19 est considéré comme le vecteur de caractéristiques. Lorsque la légende de la ligne est tokenisée, elle est alors convertie en format numérique.

Équation 20 (11)

Si la légende se divise en mots alors

Équation 21 (12)

Ici, le vocabulaire joue un rôle important, chaque mot étant identifié de manière unique par indexation basée sur des entiers.

Équation 22 (13)

Où V_c est considéré comme une fonction de vocabulaire ; il faut s’assurer que toutes les séquences aient une longueur égale ; donc la hauteur maximale ou la longueur idéale est considérée comme L_max.

Équation 25 (14)

Maintenant, les jetons sont intégrés comme ;

Équation 26 (15)

pour j = 1,2,3, ... .., L_max

Où Équation 28 est considéré comme un vecteur plongé avec K dimensions ; le décodeur doit alors être utilisé pour décoder la légende pour la génération de légendes candidates, qui est basée sur un modèle probabiliste.

Équation 29 (16)

Où w_j est une œuvre à l’horodatage j, w_{1 : j-1} est le mot généré à l’horodatage j-1 et e_j-1 est la caractéristique intégrée avec le mot précédent wj-1. À chaque horodatage, le réseau prédisait le mot suivant ou la probabilité était calculée sur le vocabulaire.

Équation 35 (17)

Où w_{en sortie} est le poids de sortie et b_{en sortie} est le biais de sortie. Ainsi, la probabilité maximale est calculée comme

Équation 38 (18)

La longueur maximale de la légende candidate est calculée une fois que le mot < fin > est reçu ou identifié comme un jeton spécial comme < début > et . La recherche par faisceau est également utile pour sélectionner la meilleure légende candidate, donc la séquence est :

Équation 39 (19)

Équation 40 (20)

Ainsi, la légende candidate générée est la séquence de Équation 41

La mémoire à court terme longue est généralement utilisée pour la génération de séquences. Le LSTM utilise un CNN comme extracteur de caractéristiques et génère des mots séquentiellement pour créer des phrases pertinentes. LSTM calcule la porte d’oubli à chaque horodatage T.

Équation 42

Où f_t est considéré comme une porte d’oubli, σ est considéré comme une fonction d’activation, w_f est considéré comme le poids et b_f comme le biais,

y_t est considéré comme un vecteur de caractéristiques d’entrée, h_t-1 comme un état caché.

Équation 48 (22)

Équation 49 (23)

J_t est considéré comme une entrée, Équation 106 comme un état candidat, w_j et_{w c} sont considérés comme poids pour l’entrée et l’état candidat respectivement, b_j et_{b c} ou considérés comme biais.

Équation 54 (24)

C_t est considéré comme un état complet, C_t-1 est considéré comme un état précédent.

Équation 57 (25)

O_t est considéré comme une sortie, w_o comme un poids et b_o comme biais. Pour initialiser les états cachés et cellules, les calculs suivants sont nécessaires.

Équation 61 (26)

Équation 62 (27)

Alors que h_i et C_i sont considérés respectivement comme l’état caché et l’état cellulaire, w_h et w_c sont les poids pour l’état caché et l’état de la cellule voile respectivement, b_c et b_h sont considérés comme des biais, k comme l’extracteur de caractéristiques. La séquence de la légende est calculée ainsi :

Équation 69 (28)

Où T est la longueur de la légende générée.

254 × 254 × 3 correspond à l’image redimensionnée ou pré-traitée, et I est considérée comme l’image d’entrée.

Équation 71 (29)

Où W et b sont considérés respectivement comme poids et biais, I est considéré comme des caractéristiques d’entrée, et ReLU est la fonction d’activation. C’est le calcul de la couche convolutionnelle. Aujourd’hui, la couche de regroupement peut être calculée comme suit :

Équation 72 (30)

Après avoir finalisé la couche de pooling ; La couche entièrement connectée peut être mappée comme suit :

Équation 73 (31)

Où w_f et b_f sont considérés respectivement comme le poids et le biais du réseau.

Équation 74 (32)

Équation 75 (33)

Où N est considéré comme la région spatiale et d comme la dimension de la structure.

Équation 76 (34)

Équation 77 (35)

Où w_h et b_h sont considérés respectivement comme poids et biais d’état caché, w_c et b_c comme poids et biais de l’état cellulaire, respectivement. Les sous-titres peuvent être générés comme suit :

Équation 78 (36)

Encodeur et décodeur
Le système proposé encode les données pour la traduction automatique à l’aide d’un CNN. Dans ce cas, l’entrée et la sortie sont toutes deux des séquences, mais elles peuvent différer en longueur. Un à un, la machine encode et décode chaque vecteur. En utilisant un vecteur comme point de départ, la machine commence à encoder et décoder, puis continue de calculer jusqu’à la distribution de probabilité conditionnelle finale. Voici un exemple :

Équation 80 (37)

Ceci est considéré comme la distribution de probabilité.

Le système peut encoder les données sous forme d’image vectoriel, et elles peuvent ensuite être décodées. fc_n (I) est considéré comme le modèle d’image pour la compréhension d’image.

Équation 83 (38)

Équation 84 (39)

Équation 85 (40)

S₁ est l’itération suivante de S₀, et S₂ est l’itération suivante de S₁. On pourrait dire que chaque entrée dépend de la sortie de la couche précédente. Les images sont converties en vecteurs par CNN et envoyées à la couche suivante, qui traverse tous les vecteurs. Ici, un mécanisme d’attention est utilisé pour organiser séquentiellement les mots en une phrase pleine de sens après que la RNN ait décodé les vecteurs en mots.

Équation 86 (41)

Où T est la longueur de l’entrée.

Équation 87 (42)

Équation 88 (43)

k₁, k₂, k₃, k₄, ......, k_t-1 sont des états de décodage cachés.

Figure 2 : Modèle d’encodage et de décodage. Cette figure présente le cadre encodeur-décodeur utilisé pour le sous-titrage d’images, montrant comment les caractéristiques d’image sont encodées en représentations vectorielles puis décodées en descriptions textuelles séquentielles. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Modèle de procédé
Voir la Figure 3, qui montre le schéma de flux des modules d’entraînement, où le jeu de données et ses légendes de terrain ont été chargés en premier. Après la normalisation des données pour l’encodage CNN, le modèle ResNet est initialisé et entraîné en utilisant les fonctionnalités extraites. RNN et les mots spécifiques au système marqués par des marqueurs de début et de fin peuvent alors être utilisés pour décoder la légende. Le système termine l’extraction si le dernier mot est trouvé, et N est le nombre total de mots dans la légende candidate.

Figure 3 : Organigramme du modèle d’entraînement. Cette figure décrit le processus étape par étape impliqué dans l’entraînement du modèle, incluant le prétraitement des données, l’extraction de caractéristiques, l’apprentissage du modèle et l’optimisation. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Le diagramme de flux du modèle de test est montré à la Figure 4, où le système charge d’abord les modèles encodeur et décodeur, puis charge le modèle ResNet et les données d’entrée pour l’extraction des sous-titres. S’il n’y a pas eu d’erreurs de décodage, l’inférence peut être faite du premier au dernier mot. Après avoir atteint le dernier mot, des mots décodés peuvent être obtenus, et une légende peut être créée en utilisant un mécanisme d’attention pour organiser séquentiellement les mots de manière significative. La taille du faisceau du modèle d’entraînement est de cinq avec une longueur maximale de 20, et la taille de son lot est de 128 avec 20 époques.

Figure 4 : Organigramme du modèle de test. Cette figure illustre le flux de travail des tests, montrant comment les images d’entrée sont traitées via le modèle entraîné pour générer des légendes et évaluer les performances. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Algorithme de sous-titrage d’image ResNet-152
On initialise les paramètres d’entrée et de sortie, et ici l’entrée est prise comme l’ensemble des images MSCOCO car I = (i₁, i₂, i₃, ....... i_N) ainsi que l’annotation J = (j₁, j₂, j₃, ......... j_N) et la sortie est calculée sous forme de légendes. Dès la toute première étape, une entrée est requise, puis pré-traiter les images en redimensionnant le format d’image comme suit

Équation 92 (44)

Où w et h sont la largeur et la hauteur originales de l’image, w_new et h_new sont les dimensions redimensionnées, T_s est considéré comme une taille cible prédéfinie (T_s = 224), max(w, h) définit la plus grande dimension, qui a été mise à l’échelle pour maintenir le format d’aspect.

Après extraction de caractéristiques, il est nécessaire de déclarer le bloc identité comme

Équation 100 (45)

Ensuite, initialisez les paramètres comme la taille du lot, le nombre d’époques, W_cachécomme poids pour les couches cachées, W_{en sortie} comme pour la couche de sortie, et la hauteur B, le_biaisB comme biais. Une fois l’initialisation terminée, il est nécessaire de calculer la sortie de la couche convolutionnelle.

Équation 101 (46)

Il peut être considéré comme un bloc ReLU normal si b_l est équivalent à 1. Mais si b_l n’est pas égal à 1 ni équivalent à 0, alors il serait ;

Équation 102 (47)

Puis calculer la faisabilité de survie en

Équation 103 (48)

Où_{F K} est considéré comme la faisabilité de survie du système, et K est pris comme représentant le nombre total de blocs dans le modèle. Puis calculer la distribution de probabilité

Équation 104 (49)

Une fois la distribution de probabilité calculée, il construit le modèle pour y accéder et décoder les données en utilisant

Équation 105 /9500

k₁, k₂, k₃, k₄, ......, k_t-1 sont des états de décodage cachés.

Lors de l’accès au modèle, il est nécessaire d’appliquer des mécanismes d’attention pour la génération des sous-titres qui évaluent le candidat par rapport à la légende de référence ; les indicateurs finaux peuvent ensuite être évalués en utilisant BLEU, METEOR, CIDEr et ROUGE.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Spécifications logicielles et d’environnement
Python 3.10 était le principal langage de programmation utilisé pour les expériences. Visual Studio Code a été utilisé pour configurer l’environnement de développement (VS Code). Les bibliothèques importantes utilisées dans cette recherche incluent Pickle pour la sérialisation des données, le multitraitement pour le traitement parallèle, Glob pour la gestion de fichiers et PyTorch pour le développement de modèles d’apprentissage profond. La configuration m...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dans le domaine de l’intelligence artificielle, le sous-titrage des images est une tâche difficile. Le sous-titrage d’images a fait l’objet de nombreuses études, et un sous-titrage précis ou précis exige encore le plus haut niveau de précision. De nombreuses techniques d’apprentissage automatique peuvent être utilisées pour atteindre l’objectif du sous-titrage d’images, et de nombreuses études ont utilisé CNN, RNN et ResNet-152. Cependant, une précision accrue et un temps de traitement r...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs déclarent qu’ils n’ont aucun intérêt financier concurrent ni relations personnelles qui auraient pu influencer le travail rapporté dans cet article.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nous remercions les créateurs des ensembles de données MSCOCO pour avoir fourni les références utilisées dans cette étude. Les auteurs déclarent qu’aucun financement externe n’a été reçu pour cette étude.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	La série AMD Ryzen 5000 est une gamme de processeurs haute performance développée par AMD, basée sur l'architecture Zen 3. Ces processeurs sont largement utilisés dans les ordinateurs de bureau et les ordinateurs portables pour les tâches informatiques générales et les tâches exigeantes telles que le traitement des données et les flux de travail d'apprentissage automatique.
GPU	NVIDIA	4.71933E+12	La série NVIDIA GeForce GTX est une série d'unités de traitement graphique (GPU) développées par NVIDIA, largement utilisées pour les jeux ainsi que pour les tâches informatiques générales comme l'apprentissage profond et le traitement d'images.
Intel Core i5	Intel	BX8071514400F	Intel Core i5 est une série de processeurs de gamme moyenne développée par Intel, largement utilisée dans les ordinateurs personnels pour les tâches générales et computationnelles.
Python 3.10	Python Software Foundation	PEP 619	Python est un langage de programmation interprété de haut niveau largement utilisé dans le calcul scientifique, l'analyse de données et l'apprentissage automatique. Il est connu pour sa simplicité, sa lisibilité et son vaste écosystème de bibliothèques.
PyTorch	Facebook	26.03-py3	PyTorch est un framework d'apprentissage automatique open-source développé par Meta Platforms (anciennement Facebook), largement utilisé pour la construction et l'entraînement de réseaux neuronaux dans la recherche et l'industrie.
Visual Studio Code	Microsoft	None	Visual Studio Code (VS Code) est un éditeur de code léger et open-source développé par Microsoft. Il est largement utilisé pour le développement de logiciels, y compris les projets de machine learning et d'apprentissage profond.
Windows 11	Microsoft	KB5083631	Windows 11 est un système d'exploitation développé par Microsoft, largement utilisé pour l'informatique générale ainsi que pour le développement de logiciels et les tâches d'apprentissage automatique.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Génération de légendes d’images à l’aide d’approches d’apprentissage profond

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles