Research Article

Génération de légendes d’images à l’aide d’approches d’apprentissage profond

June 12th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ce protocole utilise des CNN, RNN et ResNets pour le sous-titrage des images, en extrayant les descriptions des activités, des personnes, des objets et d’autres éléments des images. Elle a été justifiée par des scores BLEU, CIDEr, METEOR et ROUGE.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La création de légendes d’image est un effort visant à fournir une description textuelle significative impliquant une image. Les informations extraites sont pertinentes pour les activités présentes dans les images. ResNet (Réseau Résiduel) est bien connu pour sa capacité à classer les images, ayant développé des représentations hiérarchiques profondes. L’objectif de cet article est d’utiliser ResNet avec divers filtres intelligents pour classifier les images plus en profondeur, permettant ainsi la génération de descriptions authentiques et significatives, très précises par rapport aux légendes de référence. Ici, le travail utilise une technique de filtrage intelligent pour améliorer les images, un CNN pour encoder des fonctionnalités, l’entraînement des modèles, puis un RNN (Réseau Neuronal Récurrent) pour décoder les caractéristiques. ResNet est un modèle très efficace pour les tâches de vision par ordinateur, en particulier la classification des objets et l’analyse sémantique. ResNet est bien connu pour ses connexions résiduelles, également appelées connexions sautées qui résolvent le problème du gradient nul, un problème crucial en apprentissage profond. Ici, le benchmark MSCOCO (Microsoft Common Object in Context) est utilisé pour entraîner le modèle, qui est un grand ensemble de données avec des annotations de référence utiles pour diverses tâches de vision par ordinateur. ResNet aide à améliorer la capacité de généralisation, ce qui est particulièrement utile pour des images diverses. Selon les résultats obtenus, les scores BLEU sont B1 : 0,579, B2 : 0,404, B3 : 0,279, B4 : 0,191 ; METEOR : 0,195 ; ROUGE : 0,396 ; et CIDEr : 0,6.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dans les domaines de la vision par ordinateur et du traitement du langage naturel, le sous-titrage d’images est une tâche cruciale qui permet d’extraire une description de l’image et des actions qu’elle représente. L’objectif du modèle est de comprendre les images et de traduire ces informations en phrases ou légendespertinentes 1. L’ensemble de la procédure se compose de deux phases importantes : la première est l’extraction des caractéristiques, où un modèle CNN est utilisé ; la seconde est la description d’image à l’aide d’un RNN et, entre les deux, ResNet est utilisé pour l’analyse sémantique, la génération de séquences et un mécanisme d’attention. ResNet est très différent des méthodes basées sur des modèles ou des modules basés sur DenseNet car il utilise des connexions de saut qui réduisent le temps d’exécution tout en améliorant les performances. Il existe de nombreuses applications du sous-titrage d’images, notamment l’aide aux personnes malvoyantes, le renforcement des plateformes de réseaux sociaux, l’optimisation des moteurs de recherche basés sur des images, l’IA basée sur des images (intelligence artificielle), et bien plusencore.

En vision par ordinateur, la reconnaissance de scène est le processus d’identification et de classification du contexte général ou de l’environnement de l’image, tel qu’une plage, une ville, une forêt ou un bureau. Contrairement à la reconnaissance d’objets, qui se concentre sur des objets individuels, la reconnaissance de scène prend en compte les textures, les agencements spatiaux et les relations entre objets afin de comprendre le contexte plus large. Il utilise des CNN et des Vision Transformers, des modèles d’apprentissage profond entraînés sur de grands ensembles de données tels que Places365 et ImageNet. Les applications incluent la surveillance de sécurité, la réalité augmentée et virtuelle (RA et VR) pour des expériences immersives, la robotique pour la sensibilisation environnementale et les véhicules autonomes pour la navigation. Malgré les avancées, des problèmes tels que les points de vue changeants, les occlusions et l’éclairage changeant font de la reconnaissance de scènes un sujet brûlant dans la recherche en vision par ordinateur et en intelligence artificielle. Un autre problème fondamental en vision par ordinateur est la reconnaissance de scène.

EnsCaption, un modèle de réseau antagoniste génératif dual, a été proposé pour améliorer une technique d’ensemblegénération-récupération 3. Cette mise en page permet des méthodes de légende d’images harmonieuses, basées sur la procréation, qui génèrent des légendes alignées sur les objectifs existants. Tandis que la technique basée sur la récupération utilise un modèle basé sur la position ou l’étalonnage pour sélectionner le meilleur modèle afin d’extraire l’information avec plus de précision que les autres dans la requête basée sur l’image. Une correspondance des images à un « espace de sens » a été introduite à l’aide de composants visuels tels que des objets, des activités et des scènes, qui étaient ensuite alignés avec des modèles verbauxcorrespondants 4. En utilisant les corrélations et qualités trouvées dans les images, l’approche construit des phrases. Les phrases expriment l’information de manière riche, condensée et subtile. La génération de sous-titres basée sur des modèles a été améliorée en intégrant des connaissances de bon sens pour améliorer la compréhensionsémantique 5. Cette technique étendait la portée du modèle au-delà des caractéristiques directes de l’image pour englober les associations déduites. Ce travail utilise un ensemble de données existant de détection d’objets pour extraire 16 000 énoncés de bon sens pour chaque catégorie annotée. De plus, la généralisation a été réalisée à l’aide de WordNet, permettant l’induction d’un grand nombre de faits concernant des objets jusque-làinvisibles 6. Propose une revue d’une taxonomie organisée des techniques d’apprentissage profond pour le sous-titrage des images, incluant des sujets tels que les mécanismes d’attention, les tactiques d’apprentissage par renforcement et les cadres encodeur-décodeur. En plus de traiter des questions telles que les hallucinations d’objets et la compréhension contextuelle, il examine également les ensembles de données couramment utilisés et les critères d’évaluation. Les auteurs mettent en avant des domaines à étudier plus près, tels que l’amélioration des techniques de pré-entraînement vision-langage et la réduction du biais de jeu de données. Une approche d’analyse sémantique basée sur les réseaux de neurones convolutionnels et les réseaux neuronaux récurrents a été explorée pour les tâches de sous-titraged’images 7. La légende d’images est l’une des utilisations les plus connues, permettant aux ordinateurs de produire des phrases évocatrices qui encapsulent une image. Pour fournir des descriptions sémantiques significatives et de haut niveau, cette procédure implique plus que l’identification d’objets et de scènes ; Cela implique également d’examiner leurs états, leurs caractéristiques et leurs interactions. Malgré la complexité et la difficulté inhérentes à la légende d’images, les universitaires ont réalisé des progrès impressionnants dans ce domaine. Les trois principales techniques de sous-titrage d’images basées sur des réseaux de neurones profonds abordées dans cette étude sont les frameworks basés sur CNN-RNN, CNN-CNN et l’apprentissage par renforcement. Un modèle entraînable de bout en bout pour le sous-titrage d’images a été introduit, intégrant la vision par ordinateur et le traitement du langage naturel pour générer des descriptions cohérentes desimages 8. Pour créer une légende, il utilise un cadre encodeur-décodeur dans lequel un LSTM décode une image en une chaîne de mots après qu’un CNN pré-entraîné l’ait encodée en un vecteur de caractéristiques. Malgré ses inconvénients, notamment les difficultés avec les décors complexes, la contribution de l’article aux tâches de vision et de langage reste fondamentale9.

ResNet est le réseau de neurones convolutionnel (CNN) utilisé dans le modèle de sous-titrage d’images proposé pour extraire des informations visuelles riches à partir des images d’entrée. ResNet sert d’encodeur pour produire un vecteur de caractéristiques représentant l’image, ce qui est généralement utilisé dans une architecture encodeur-décodeur. Le décodeur, qui génère des légendes descriptives mot par mot, reçoit ces caractéristiques et est souvent implémenté à l’aide d’un réseau de neurones récurrent (RNN), tel que LSTM ou GRU. Un mécanisme d’attention peut être ajouté pour améliorer les performances en permettant au décodeur de se concentrer sur des régions spécifiques de l’image au fur et à mesure de la génération de chaque mot. Pour maximiser la précision des sous-titres, le modèle est entraîné de bout en bout à l’aide d’une fonction de perte telle que l’entropie croisée et d’un jeu de données comme COCO. L’apprentissage par transfert et l’ajustement fin ResNet peuvent améliorer l’extraction de fonctionnalités, renforçant davantage le modèle et lui permettant de produire des légendes de haute qualité et contextuellement adaptées sur une large gamme d’images. En matière de légendes d’images, ResNet est souvent préféré à d’autres modèles car il traite efficacement le problème du gradient nul, un problème courant dans les réseaux de neurones profonds. Cela est rendu possible grâce à ses nouvelles approches d’apprentissage résiduel, qui entraînent des réseaux beaucoup plus profonds sans sacrifier la performance en utilisant des connexions de saut pour faciliter l’écoulement du gradient lors de la rétropropagation. Le perceptron multicouche, un réseau neuronal feed-forward entièrement connecté, est associé à la couche entraînable. La RNN décode ensuite les sous-titres à l’aide de la couche softmax, produisant ainsi des sous-titres candidats. La fonction d’activation est f(x), la fonction identité directe est f(x) + x, et x est considéré comme identité, illustré à la Figure 1. Dans ce cas, le système utilise des blocs résiduels pour calibrer le modèle pendant l’entraînement, et ses entrées passent à la fois par les connexions de poids et les connexions de saut, également appelées raccourcis d’identité.

figure-introduction-1
Figure 1 : Réseau de connexion résiduelle. Cette figure illustre l’architecture d’un réseau résiduel, en mettant en évidence les connexions de saut qui améliorent le flux de gradient et atténuent les gradients nuls lors de l’entraînement en réseau profond. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Supposons que Pl soit la sortie ; L est le numéro de blocs résiduels ; ReLU est censé être un bloc habituel s’il est proche de 1, mais s’il n’est pas égal à 1, alors il peut être calculé comme suit :

figure-introduction-2(1)

Ici, b est la variable aléatoire, et k est la fonction de mappage.

figure-introduction-3(2)

Ici, sl est considéré comme la probabilité de survie du système proposé ;

figure-introduction-4(3)

La règle résultante pour la probabilité de survie est :

figure-introduction-5(4)

S L est censé avoir la probabilité de survie et L est censé égaler le non total. de blocs.

Le légende d’images est une tâche complexe qui combine traitement du langage naturel et vision par ordinateur pour produire des légendes textuelles descriptives pour les images. Pour cela, il faut comprendre et interpréter le contenu visuel d’une image et le traduire en phrases cohérentes dans son contexte. Dans ce domaine, disposer de jeux de données étendus et diversifiés est crucial pour l’évaluation et l’entraînement des modèles. Ces ensembles de données offrent une vaste gamme d’images et d’annotations associées, essentielles pour développer et tester des algorithmes de sous-titrage d’images. Les ensembles de données les plus fréquemment utilisés sont MSCOCO et Flickr30k, qui contiennent des millions d’images et posent divers défis dans le traitement d’images. MSCOCO est bien plus grand que Flickr30k11. L’ensemble de données MS COCO a été divisé en les ensembles suivants : 82 783 images pour l’entraînement, 40 504 pour la validation et 40 775 pour les tests.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L’implémentation a été réalisée avec le modèle principal, qui est ResNet-152, ainsi qu’un encodeur comme CNN, un décodeur comme RNN, et les ressources issues de la Table of Materials.

ResNet-152
ResNet est considéré comme la colonne vertébrale pour extraire plus efficacement les fonctionnalités dans le sous-titrage des images. ResNet offrait de meilleures performances d’entraînement que les autres modèles, car il résolvait efficacement le problème du gradient nul. Divers objets peuvent apparaître dans les images, et le modèle doit comprendre leurs relations pour une meilleure légende. C’est pourquoi on peut la considérer comme une extraction de caractéristiques hiérarchique. ResNet-152 peut gérer des tâches complexes de vision par ordinateur. L’avantage clé de ce modèle est l’utilisation efficace des connexions résiduelles ou de saut. Il est très efficace pour résoudre le problème du gradient nul. Il peut apprendre des fonctionnalités complexes et robustes pour obtenir une plus grande précision. ResNet-152 suivait une conception goulot d’étranglement qui réduisait les coûts de calcul et le rendait plus efficace que d’autres architectures, telles que VGG-16. Il dispose d’une infrastructure importante adaptée à l’apprentissage par transfert adaptée aux modèles pré-entraînés et à diverses tâches telles que la détection d’objets et la segmentation des données. La connexion à saut a accéléré l’entraînement et l’a rendu plus stable. Comparé au modèle basé sur un transformateur, qui utilise un mécanisme d’auto-attention pour comprendre les données séquentielles, ResNet est assez différent. Un modèle basé sur un transformateur nécessite une grande quantité de données pour une compréhension approfondie des données textuelles, ce qui donne des résultats efficaces mais fonctionne un peu plus lentement. La motivation pour choisir ResNet réside dans ses connexions de saut, qui accélèrent l’exécution avec une amélioration significative des résultats. Dans le domaine du légende d’image, ResNet est utilisé pour extraire les caractéristiques représentant l’objet et l’action effectuée dans l’image. ResNet utilisait un réseau résiduel qui exploitait les connexions de saut. Ici, le bloc résiduel peut être calculé avec référence de l’entrée Z comme suit :

figure-protocol-1(5)

Où Z est considéré comme l’entrée du bloc résiduel.
figure-protocol-2est une fonction résiduelle qui implique la normalisation par lots, les couches convolutionnelles et l’activation de ReLu. {x i} est considéré comme le poids d’apprentissage des couches correspondantes. Z définit également l’identité de connexion de saut, ce qui résout également le problème du gradient nul. ResNet est généralement utilisé comme extracteur de caractéristiques pour la cartographie visuelle des caractéristiques à partir des images. Ici, I est considéré comme l’image d’entrée pour représenter les mapes de caractéristiques dans une haute représentation visuelle des caractéristiques V.

figure-protocol-3(6)

Avant d’extraire les caractéristiques, l’image doit être prétraitée pour améliorer l’extraction des caractéristiques. Il est considéré comme une image brute collectée à partir du benchmark MSCOCO, donc la première étape du prétraitement est de la redimensionner et de la normaliser.

figure-protocol-4(7)

figure-protocol-5(8)

Où Hl est la hauteur de l’image et Wl est le poids de l’image. Jeredimensionne l’image redimensionnée.

Normaliser la valeur des pixels à partir de la plage [-1, 1] ou [0, 1]

figure-protocol-6(9)

μ est considéré comme la valeur moyenne du pixel σ est considéré comme l’écart-type de l’image référencée. L’image normalisée est désormais traitée davantage pour l’extraction des caractéristiques.

figure-protocol-7(10)

figure-protocol-8 est considéré comme le vecteur de caractéristiques. Lorsque la légende de la ligne est tokenisée, elle est alors convertie en format numérique.

figure-protocol-9(11)

Si la légende se divise en mots alors

figure-protocol-10(12)

Ici, le vocabulaire joue un rôle important, chaque mot étant identifié de manière unique par indexation basée sur des entiers.

figure-protocol-11(13)

Vc est considéré comme une fonction de vocabulaire ; il faut s’assurer que toutes les séquences aient une longueur égale ; donc la hauteur maximale ou la longueur idéale est considérée comme Lmax.

figure-protocol-12(14)

Maintenant, les jetons sont intégrés comme ;

figure-protocol-13(15)

pour j = 1,2,3, ... .., Lmax

figure-protocol-14 est considéré comme un vecteur plongé avec K dimensions ; le décodeur doit alors être utilisé pour décoder la légende pour la génération de légendes candidates, qui est basée sur un modèle probabiliste.

figure-protocol-15(16)

wj est une œuvre à l’horodatage j, w1 : j-1 est le mot généré à l’horodatage j-1 et ej-1 est la caractéristique intégrée avec le mot précédent wj-1. À chaque horodatage, le réseau prédisait le mot suivant ou la probabilité était calculée sur le vocabulaire.

figure-protocol-16(17)

wen sortie est le poids de sortie et ben sortie est le biais de sortie. Ainsi, la probabilité maximale est calculée comme

figure-protocol-17(18)

La longueur maximale de la légende candidate est calculée une fois que le mot < fin > est reçu ou identifié comme un jeton spécial comme < début > et . La recherche par faisceau est également utile pour sélectionner la meilleure légende candidate, donc la séquence est :

figure-protocol-18(19)

figure-protocol-19(20)

Ainsi, la légende candidate générée est la séquence de figure-protocol-20

La mémoire à court terme longue est généralement utilisée pour la génération de séquences. Le LSTM utilise un CNN comme extracteur de caractéristiques et génère des mots séquentiellement pour créer des phrases pertinentes. LSTM calcule la porte d’oubli à chaque horodatage T.

figure-protocol-21

ft est considéré comme une porte d’oubli, σ est considéré comme une fonction d’activation, wf est considéré comme le poids et bf comme le biais,

yt est considéré comme un vecteur de caractéristiques d’entrée, ht-1 comme un état caché.

figure-protocol-22(22)

figure-protocol-23(23)

Jt est considéré comme une entrée, figure-protocol-24 comme un état candidat, wj etw c sont considérés comme poids pour l’entrée et l’état candidat respectivement, bj etb c ou considérés comme biais.

figure-protocol-25(24)

Ct est considéré comme un état complet, Ct-1 est considéré comme un état précédent.

figure-protocol-26(25)

Ot est considéré comme une sortie, wo comme un poids et bo comme biais. Pour initialiser les états cachés et cellules, les calculs suivants sont nécessaires.

figure-protocol-27(26)

figure-protocol-28(27)

Alors que hi et Ci sont considérés respectivement comme l’état caché et l’état cellulaire, wh et wc sont les poids pour l’état caché et l’état de la cellule voile respectivement, bc et bh sont considérés comme des biais, k comme l’extracteur de caractéristiques. La séquence de la légende est calculée ainsi :

figure-protocol-29(28)

Où T est la longueur de la légende générée.

254 × 254 × 3 correspond à l’image redimensionnée ou pré-traitée, et I est considérée comme l’image d’entrée.

figure-protocol-30(29)

Où W et b sont considérés respectivement comme poids et biais, I est considéré comme des caractéristiques d’entrée, et ReLU est la fonction d’activation. C’est le calcul de la couche convolutionnelle. Aujourd’hui, la couche de regroupement peut être calculée comme suit :

figure-protocol-31(30)

Après avoir finalisé la couche de pooling ; La couche entièrement connectée peut être mappée comme suit :

figure-protocol-32(31)

wf et bf sont considérés respectivement comme le poids et le biais du réseau.

figure-protocol-33(32)

figure-protocol-34(33)

Où N est considéré comme la région spatiale et d comme la dimension de la structure.

figure-protocol-35(34)

figure-protocol-36(35)

wh et bh sont considérés respectivement comme poids et biais d’état caché, wc et bc comme poids et biais de l’état cellulaire, respectivement. Les sous-titres peuvent être générés comme suit :

figure-protocol-37(36)

Encodeur et décodeur
Le système proposé encode les données pour la traduction automatique à l’aide d’un CNN. Dans ce cas, l’entrée et la sortie sont toutes deux des séquences, mais elles peuvent différer en longueur. Un à un, la machine encode et décode chaque vecteur. En utilisant un vecteur comme point de départ, la machine commence à encoder et décoder, puis continue de calculer jusqu’à la distribution de probabilité conditionnelle finale. Voici un exemple :

figure-protocol-38(37)

Ceci est considéré comme la distribution de probabilité.

Le système peut encoder les données sous forme d’image vectoriel, et elles peuvent ensuite être décodées. fcn (I) est considéré comme le modèle d’image pour la compréhension d’image.

figure-protocol-39(38)

figure-protocol-40(39)

figure-protocol-41(40)

S1 est l’itération suivante de S0, et S2 est l’itération suivante de S1. On pourrait dire que chaque entrée dépend de la sortie de la couche précédente. Les images sont converties en vecteurs par CNN et envoyées à la couche suivante, qui traverse tous les vecteurs. Ici, un mécanisme d’attention est utilisé pour organiser séquentiellement les mots en une phrase pleine de sens après que la RNN ait décodé les vecteurs en mots.

figure-protocol-42(41)

Où T est la longueur de l’entrée.

figure-protocol-43(42)

figure-protocol-44(43)

k1, k2, k3, k4, ......, kt-1 sont des états de décodage cachés.

figure-protocol-45
Figure 2 : Modèle d’encodage et de décodage. Cette figure présente le cadre encodeur-décodeur utilisé pour le sous-titrage d’images, montrant comment les caractéristiques d’image sont encodées en représentations vectorielles puis décodées en descriptions textuelles séquentielles. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Modèle de procédé
Voir la Figure 3, qui montre le schéma de flux des modules d’entraînement, où le jeu de données et ses légendes de terrain ont été chargés en premier. Après la normalisation des données pour l’encodage CNN, le modèle ResNet est initialisé et entraîné en utilisant les fonctionnalités extraites. RNN et les mots spécifiques au système marqués par des marqueurs de début et de fin peuvent alors être utilisés pour décoder la légende. Le système termine l’extraction si le dernier mot est trouvé, et N est le nombre total de mots dans la légende candidate.

figure-protocol-46
Figure 3 : Organigramme du modèle d’entraînement. Cette figure décrit le processus étape par étape impliqué dans l’entraînement du modèle, incluant le prétraitement des données, l’extraction de caractéristiques, l’apprentissage du modèle et l’optimisation. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Le diagramme de flux du modèle de test est montré à la Figure 4, où le système charge d’abord les modèles encodeur et décodeur, puis charge le modèle ResNet et les données d’entrée pour l’extraction des sous-titres. S’il n’y a pas eu d’erreurs de décodage, l’inférence peut être faite du premier au dernier mot. Après avoir atteint le dernier mot, des mots décodés peuvent être obtenus, et une légende peut être créée en utilisant un mécanisme d’attention pour organiser séquentiellement les mots de manière significative. La taille du faisceau du modèle d’entraînement est de cinq avec une longueur maximale de 20, et la taille de son lot est de 128 avec 20 époques.

figure-protocol-47
Figure 4 : Organigramme du modèle de test. Cette figure illustre le flux de travail des tests, montrant comment les images d’entrée sont traitées via le modèle entraîné pour générer des légendes et évaluer les performances. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Algorithme de sous-titrage d’image ResNet-152
On initialise les paramètres d’entrée et de sortie, et ici l’entrée est prise comme l’ensemble des images MSCOCO car I = (i1, i2, i3, ....... iN) ainsi que l’annotation J = (j1, j2, j3, ......... jN) et la sortie est calculée sous forme de légendes. Dès la toute première étape, une entrée est requise, puis pré-traiter les images en redimensionnant le format d’image comme suit

figure-protocol-48(44)

Où w et h sont la largeur et la hauteur originales de l’image, wnew et hnew sont les dimensions redimensionnées, Ts est considéré comme une taille cible prédéfinie (Ts = 224), max(w, h) définit la plus grande dimension, qui a été mise à l’échelle pour maintenir le format d’aspect.

Après extraction de caractéristiques, il est nécessaire de déclarer le bloc identité comme

figure-protocol-49(45)

Ensuite, initialisez les paramètres comme la taille du lot, le nombre d’époques, Wcaché comme poids pour les couches cachées, Wen sortie comme pour la couche de sortie, et la hauteur B, lebiais B comme biais. Une fois l’initialisation terminée, il est nécessaire de calculer la sortie de la couche convolutionnelle.

figure-protocol-50(46)

Il peut être considéré comme un bloc ReLU normal si bl est équivalent à 1. Mais si bl n’est pas égal à 1 ni équivalent à 0, alors il serait ;

figure-protocol-51(47)

Puis calculer la faisabilité de survie en

figure-protocol-52(48)

F K est considéré comme la faisabilité de survie du système, et K est pris comme représentant le nombre total de blocs dans le modèle. Puis calculer la distribution de probabilité

figure-protocol-53(49)

Une fois la distribution de probabilité calculée, il construit le modèle pour y accéder et décoder les données en utilisant

figure-protocol-54/9500

k1, k2, k3, k4, ......, kt-1 sont des états de décodage cachés.

Lors de l’accès au modèle, il est nécessaire d’appliquer des mécanismes d’attention pour la génération des sous-titres qui évaluent le candidat par rapport à la légende de référence ; les indicateurs finaux peuvent ensuite être évalués en utilisant BLEU, METEOR, CIDEr et ROUGE.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Spécifications logicielles et d’environnement
Python 3.10 était le principal langage de programmation utilisé pour les expériences. Visual Studio Code a été utilisé pour configurer l’environnement de développement (VS Code). Les bibliothèques importantes utilisées dans cette recherche incluent Pickle pour la sérialisation des données, le multitraitement pour le traitement parallèle, Glob pour la gestion de fichiers et PyTorch pour le développement de modèles d’apprentissage profond. La configuration matérielle comprenait 256 Go de stockage, 8 Go de RAM et un GPU NVIDIA GTX série avec prise en charge CUDA pour un calcul plus rapide. Un ordinateur fonctionnant soit avec un processeur AMD Ryzen de la série 5000, soit sous un processeur Intel Core i5 a été utilisé pour les expériences. Windows 10/11 était le système d’exploitation utilisé pour cette implémentation. Cela peut être facilement compris à partir du tableau des spécifications environnementales du Tableau 1.

MatérielSpécification
GPUSérie NVIDIA GTX
BibliothèquesPyTorch, Pickle, Multiprogramming, Glob
OSWindows 10/11
ProcesseurIntel Core i5/AMD Ryzen série 5000
ProgrammationPython 3.10
RAM8 Go
LogicielsVisual Studio Code
Stockage256 Go

Tableau 1 : Spécifications environnementales. Ce tableau résume les matériaux utilisés dans l’implémentation et leurs spécifications, tels que les langages de programmation, les bibliothèques et les spécifications matérielles.

Analyse qualitative
Selon l’analyse qualitative du modèle selon les différentes catégories, telles que les scènes extérieures et intérieures et les scènes simples et complexes, le modèle est un peu efficace pour décrire l’image. B1, B2, B3 et B4 sont considérés comme des scores BLEU. C est considéré comme CIDEr, M comme METEOR, et R comme ROUGE. Pour chaque matrice où B1 est 0,579, B2 0,404, B3 0,279, B4 0,191, METEOR 0,195, ROUGE 0,396 et CIDEr 0,6, le résultat est représenté par 1, comme illustré dans le tableau 2.

MatricesMSCOCO  Scores
BLEU10.579
BLEU20.404
BLEU30.279
BLEU40.191
METEOR0.195
ROUGE0.396
CIDEr0.6

Tableau 2 : Résultats expérimentaux. Ce tableau résume la performance du modèle proposé à l’aide de métriques d’évaluation telles que BLEU, METEOR, ROUGE et CIDEr, fournissant une évaluation quantitative de la qualité des sous-titres.

figure-results-1
Figure 5 : Résultat expérimental. Cette figure présente une représentation graphique des métriques d’évaluation, illustrant la performance comparative du modèle à travers différentes mesures. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

La comparaison des résultats est illustrée dans les tableaux 3, 4 et 5. Les références suivantes sont listées dans les Tables 3, 3 & 4:10,11,12,13,14

MéthodeB1B2B3B4
Face-CapF [10]0.57130.36510.24070.1652
Face-Init [10]0.56630.36490.2430.1686
Face-CapL [11]0.5890.37890.25070.1719
Face-Step [10]0.58430.37560.24780.1696
CSPDN-BiLSTM-SelfAtt [12]0.60120.39920.27030.1921
CNN+RNN+ResNet-152 (Proposé)0.5790.4040.2790.191

Tableau 3 : Comparaison des résultats pour les scores BLEU. Ce tableau compare les résultats des scores BLEU entre différents modèles ou configurations afin de mettre en avant les améliorations de la précision de la génération de sous-titres.

Comme montré dans les tableaux 3 et 4, CSPDN-BiLSTM-SelfAtt12 performe mieux sur B1 et B4, tandis que CNN+RNN+ResNet-152 est mieux performant sur B2 et B3. CNN+RNN+ResNet-152 est meilleur que METER et CIDEr, plutôt que ROUGE. Ainsi, les deux méthodes sont égales en scores BLEU, mais la méthode proposée est meilleure que les deux autres métriques. Ainsi, la supériorité globale dans le résultat est obtenue par la méthode proposée. Face-CapF10, Face-Init10, Face-CapL11,Face-Step 10 réalisent le sous-titrage d’images basé sur le jeu de données FlickrFace11K. Mais les résultats sont relativement médiocres, même pour un grand ensemble de données. Bien que le modèle proposé ait un score CIDEr significativement plus élevé, cette divergence est causée par des différences dans la procédure d’évaluation, la préparation du jeu de données et les spécificités de la mise en œuvre.

MéthodeMETEORCIDErROUGE
Face-CapF [10]0.17190.23040.4476
Face-Init [10]0.17170.23130.4484
Face-CapL [11]0.17440.24720.4547
Face-Step [10]0.17450.22830.4504
CSPDN-BiLSTM-SelfAtt [12]0.19320.26170.4793
CNN+RNN+ResNet-152 (Proposé)0.1950.60.396

Tableau 4 : Comparaison des résultats par rapport à METEOR, CIDEr et ROUGE. Ce tableau propose une analyse comparative de plusieurs métriques d’évaluation afin d’évaluer la qualité sémantique et syntaxique des légendes générées.

MéthodeB1B2B3B4METEORROUGE
Augmentation de gabarit [13]0.2380.1090.050.0220.0960.249
EfficientNetB0 [14]0.28270.13250.05880.02660.26610.3609
EfficientNetB1 [14]0.2890.14040.06420.02860.2710.3718
ResNet50 [14]0.26370.12170.04960.02070.24370.3423
MobileNetV2 [14]0.21060.0640.02150.0090.17940.2606
CNN+RNN+ResNet-152 (Proposé)0.5790.4040.2790.1910.1950.396

Tableau 5 : Comparaison des résultats pour les scores BLEU, METEOR et ROUGE. Ce tableau présente une comparaison consolidée des indicateurs clés d’évaluation afin de démontrer l’efficacité globale du modèle.

Selon le Tableau 5, EfficientNetB114 est meilleur pour METEOR, mais CNN+RNN+ResNet-152 est meilleur pour B1-B 4 et ROUGE. Dans l’ensemble, le résultat proposé est supérieur sur tous les indicateurs BLEU et ROUGE par rapport aux méthodes mentionnées.

DISPONIBILITÉ DES DONNÉES :
Toutes les données brutes et les fichiers de codage associés à cette étude sont disponibles dans les fichiers supplémentaires.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dans le domaine de l’intelligence artificielle, le sous-titrage des images est une tâche difficile. Le sous-titrage d’images a fait l’objet de nombreuses études, et un sous-titrage précis ou précis exige encore le plus haut niveau de précision. De nombreuses techniques d’apprentissage automatique peuvent être utilisées pour atteindre l’objectif du sous-titrage d’images, et de nombreuses études ont utilisé CNN, RNN et ResNet-152. Cependant, une précision accrue et un temps de traitement réduit sont nécessaires. Le système proposé est construit en utilisant CNN comme encodeur, RNN comme décodeur, Torch Vision comme bibliothèque, et ResNet comme modèle d’entraînement principal. ResNet utilise la technique de connexion à saut pour exploiter ces calques afin d’obtenir de meilleures performances comparées à d’autres modèles conventionnels comme Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2, et bien d’autres10, 11, 12, 13, 14.

Les étapes cruciales du projet proposé consistent à utiliser un filtre intelligent pour effacer les images, puis à extraire les caractéristiques avec toutes les étapes principales. Sans extraction précise des caractéristiques, il n’est pas possible d’atteindre l’objectif du modèle, et si le système ne parvient pas à extraire correctement les caractéristiques, la précision des scores métriques en est affectée. La phase d’entraînement, réalisée par une analyse approfondie des vecteurs de caractéristiques et du mécanisme d’attention, a joué un rôle essentiel dans le décodage des données de test. Il y a aussi une étape cruciale supplémentaire dans le travail, qui est la mise à jour du chant. Lorsque de nouveaux mots apparaissent lors du test des données, ces mots sont ajoutés au dictionnaire pour améliorer les performances du modèle. Ces étapes critiques ont joué un rôle essentiel pour obtenir une meilleure précision, supérieure à celle du modèle suggéré précédemment, tel que la méthode d’augmentation de gabarit. Le système a entraîné un modèle pour le benchmark MSCOCO et a obtenu un modèle plus efficace pour le sous-titrage des images.

Si la taille des données de test augmente, il peut alors être possible d’avoir de nouveaux mots liés aux images. Cela peut aussi entraîner de l’insignifiance lors de la génération de légendes, puis peut être géré via le mécanisme d’attention, qui a été utilisé dans le modèle. Le vocabulaire peut être mis à jour grâce à un mécanisme d’attention efficace pour une évaluation ultérieure. Cela peut être considéré comme de l’auto-apprentissage ou de la gestion des exceptions. Comme le modèle est entraîné avec MSCOCO, qui contient des milliers d’images réelles, de nombreux objets peuvent apparaître et doivent être mis à jour à chaque inférence.

Un inconvénient de ce travail est que, comparé aux ensembles de données contemporains utilisés pour l’entraînement, le modèle peut mal performer sur des images beaucoup plus anciennes, en particulier en noir et blanc ou des images historiques de faible qualité, en raison de différences de caractéristiques visuelles, de contraste et de texture. Si les images sont de mauvaise résolution, il est plus difficile d’extraire les caractéristiques précises, et ResNet-152 peut dégrader la phase d’encodage dans ce cas. Il fonctionne aussi mal sur trop d’images anciennes, ce qui signifie que ces images datent de temps anciens à cause de vecteurs de caractéristiques défectueux ou endommagés. Les limitations incluent l’évaluation d’un seul ensemble de données et l’absence de validation croisée.

Comparé aux approches conventionnelles, le modèle proposé est meilleur car il améliore l’extraction des caractéristiques, améliorant ainsi la génération des légendes d’image. Le filtrage intelligent améliore la phase d’extraction ou d’encodage des caractéristiques, ce qui construit mieux le modèle. ResNet-152 utilise également des connexions à saut qui exploitent le temps pendant l’entraînement. Ainsi, l’exécution est beaucoup plus rapide que dans d’autres modèles commeEfficientNetB0 14. Le mécanisme d’attention est également un facteur principal qui améliore les performances du modèle.

Cette technique peut être utilisée dans les systèmes de récupération d’images, la surveillance automatisée et les technologies d’assistance pour les personnes malvoyantes. À mesure que l’intelligence artificielle progresse rapidement, il est nécessaire d’améliorer le système de récupération d’images, et cette technique peut y contribuer. Avec ce modèle, les personnes malvoyantes peuvent obtenir de l’aide pour voir le monde en le traduisant en parole. Il existe plusieurs applications importantes et potentielles du sous-titrage d’images.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs déclarent qu’ils n’ont aucun intérêt financier concurrent ni relations personnelles qui auraient pu influencer le travail rapporté dans cet article.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nous remercions les créateurs des ensembles de données MSCOCO pour avoir fourni les références utilisées dans cette étude. Les auteurs déclarent qu’aucun financement externe n’a été reçu pour cette étude.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
AMD Ryzen série 5000AMD100-100000059WOFLa série AMD Ryzen 5000 est une gamme de processeurs haute performance développée par AMD, basée sur l’architecture Zen 3. Ces processeurs sont largement utilisés dans les ordinateurs de bureau et portables, aussi bien pour l’informatique polyvalente que pour des tâches exigeantes telles que le traitement de données et les flux de travail d’apprentissage automatique.
GPUNVIDIA  ;4,71933E+12La NVIDIA GeForce GTX est une série d’unités de traitement graphique (GPU) développées par NVIDIA, largement utilisées pour le jeu vidéo ainsi que pour les tâches informatiques polyvalentes telles que l’apprentissage profond et le traitement d’images.
Intel Core i5IntelBX8071514400FIntel Core i5 est une série de processeurs de milieu de gamme développée par Intel, largement utilisée dans les ordinateurs personnels pour des tâches à usage général et informatique.
Python 3.10Fondation Python SoftwarePEP 619Python est un langage de programmation interprété de haut niveau largement utilisé en informatique scientifique, en analyse de données et en apprentissage automatique. Elle est reconnue pour sa simplicité, sa lisibilité et son vaste écosystème de bibliothèques.
PyTorchFacebook26.03-py3PyTorch est un framework open source d’apprentissage profond développé par Meta Platforms (anciennement Facebook), largement utilisé pour la construction et la formation de réseaux neuronaux en recherche et dans l’industrie.
Visual Studio CodeMicrosoftAucunVisual Studio Code (VS Code) est un éditeur de code open source léger développé par Microsoft. Il est largement utilisé pour le développement logiciel, y compris pour l’apprentissage automatique et les projets d’apprentissage profond.
Windows 11MicrosoftKB5083631Windows 11 est un système d’exploitation développé par Microsoft, largement utilisé pour l’informatique générale ainsi que pour le développement logiciel et les tâches d’apprentissage automatique.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Image Caption GenerationDeep LearningResNet ModelSmart FilteringFeature EncodingCNN EncoderRNN DecoderObject ClassificationSemantic AnalysisMSCOCO Dataset

Related Articles