Beeldonderschriftengeneratie met behulp van deep learning-benaderingen

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

Beeldonderschriftengeneratie met behulp van deep learning-benaderingen

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dit protocol maakt gebruik van CNN's, RNNs en ResNets voor het bijschrijven van afbeeldingen, waarbij beschrijvingen worden gehaald van de activiteiten, mensen, objecten en andere elementen van de afbeeldingen. Dit is gerechtvaardigd met BLEU-, CIDEr-, METEOR- en ROUGE-metrics-scores.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Het genereren van beeldonderschriften is een poging om een betekenisvolle tekstuele beschrijving te bieden die een afbeelding bevat. Extraherde informatie is relevant voor de activiteiten die in de beelden aanwezig zijn. ResNet (Residual Network) staat bekend om zijn vermogen om afbeeldingen te classificeren en heeft diepgaande hiërarchische representaties ontwikkeld. De bedoeling van dit artikel is om ResNet met verschillende slimme filters te gebruiken om afbeeldingen dieper te classificeren, waardoor echte en betekenisvolle beschrijvingen kunnen worden gegenereerd die zeer precies zijn met betrekking tot de referentiebijschriften. Hier gebruikt het werk een slimme filtertechniek om beelden te verbeteren, een CNN om features te coderen, modeltraining, en daarna een RNN (Recurrent Neural Network) om de features te decoderen. ResNet is een zeer effectief model voor computer vision-taken, vooral objectclassificatie en semantische analyse. ResNet staat bekend om residuele verbindingen, die ook wel overslaande verbindingen worden genoemd die het verdwijningsgradiëntprobleem oplossen, een cruciaal probleem in deep learning. Hier wordt de MSCOCO (Microsoft Common Object in Context) benchmark gebruikt om het model te trainen, een grote dataset met referentie-annotaties die nuttig zijn voor diverse computer vision-taken. ResNet helpt de generalisatiemogelijkheid te verbeteren, wat vooral nuttig is voor diverse afbeeldingen. Volgens de behaalde resultaten zijn BLUE-scores B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEOR: 0,195; ROUGE: 0,396; en CIDEr: 0,6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Op het gebied van computer vision en natuurlijke taalverwerking is beeldonderschriften een cruciale taak die een beschrijving van het beeld en de handelingen die het afbeeldt oplevert. De bedoeling van het model is om beelden te begrijpen en de informatie te vertalen naar betekenisvolle zinnen of bijschriften¹. De hele procedure bestaat uit twee belangrijke fasen: de eerste is feature-extractie, waarbij een CNN-model wordt gebruikt; de tweede is beeldbeschrijving met een RNN en daartussenin wordt ResNet gebruikt voor semantische analyse, sequentiegeneratie en een aandachtsmechanisme. ResNet verschilt sterk van template-gebaseerde methoden of DenseNet-gebaseerde modules omdat het skip-verbindingen gebruikt die de uitvoeringstijd verkorten en de prestaties verbeteren. Er zijn talloze toepassingen van beeldonderschriften, waaronder het helpen van slechtzienden, het versterken van sociale mediaplatforms, het optimaliseren van beeldgebaseerde zoekmachines, beeldgebaseerde AI (kunstmatige intelligentie) en nog^{veel meer.}

In computer vision is sceneherkenning het proces waarbij de algemene context of omgeving van het beeld wordt geïdentificeerd en geclassificeerd, zoals een strand, stadsgezicht, bos of kantoor. In tegenstelling tot objectherkenning, die zich richt op individuele items, houdt scèneherkenning rekening met texturen, ruimtelijke indelingen en objectrelaties om de grotere context te begrijpen. Het gebruikt CNN's en Vision Transformers, deep learning-modellen die zijn getraind op grote datasets zoals Places365 en ImageNet. Toepassingen omvatten beveiligingsbewaking, augmented en virtual reality (AR en VR) voor meeslepende ervaringen, robotica voor milieubewustzijn en autonome voertuigen voor navigatie. Ondanks vooruitgang maken problemen zoals verschuivende gezichtspunten, occlusies en veranderende verlichting scèneherkenning tot een hot topic in het onderzoek naar computer vision en kunstmatige intelligentie. Een ander fundamenteel probleem in computer vision is scèneherkenning.

EnsCaption, een dual generatief adversarieel netwerkmodel, werd voorgesteld om een generatie–retrieval ensemble-techniek^{te verbeteren 3}. Deze lay-out maakt harmonieuze, voortplantingsgebaseerde beeldondertitelingsmethoden mogelijk die onderschriften genereren die aansluiten bij de bestaande doelen. Terwijl de ophaaltechniek een positie- of grading-gebaseerd model gebruikt om het beste model te selecteren om informatie nauwkeuriger te extraheren dan de andere in de afbeeldingsgebaseerde query. Een mapping van afbeeldingen naar een "betekenisruimte" werd geïntroduceerd met behulp van visuele componenten zoals objecten, activiteiten en scènes, die vervolgens werden uitgelijnd met de bijbehorende verbale sjablonen⁴. Met behulp van de correlaties en kwaliteiten die in de beelden worden gevonden, construeert de benadering zinnen. Zinnen drukken informatie op een rijke, compacte en subtiele manier uit. Sjabloongebaseerde bijschriftgeneratie werd verbeterd door kennis van gezond verstand te integreren om het semantisch begrip te verbeteren⁵. Deze techniek breidde het bereik van het sjabloon uit voorbij directe beeldkenmerken en omvatte afgeleide associaties. Dit werk gebruikt een bestaande objectdetectiedataset om 16.000 logische statements te extraheren voor elke geannoteerde categorie. Daarnaast werd generalisatie bereikt met WordNet, waardoor een groot aantal feiten over voorheen onbekende objecten werden geïnduceerd⁶. Biedt een overzicht van een georganiseerde taxonomie van deep learning-technieken voor het bijschrijven van afbeeldingen, waaronder onderwerpen als aandachtsmechanismen, reinforcement learning-tactieken en encoder-decoder frameworks. Naast het behandelen van kwesties zoals objecthallucinaties en contextuele begrip, onderzoekt het ook veelgebruikte datasets en beoordelingscriteria. De auteurs wijzen op gebieden voor verder onderzoek, zoals het verbeteren van visie-taalvoortrainingstechnieken en het verminderen van datasetbias. Een semantische analysebenadering gebaseerd op convolutionele neurale netwerken en recurrente neurale netwerken werd onderzocht voor beeldondertitelingstaken⁷. Beeldonderschriften zijn een van de bekendste toepassingen, waardoor computers suggestieve zinnen kunnen produceren die een afbeelding omvatten. Om hoog-niveau semantische beschrijvingen te bieden, omvat deze procedure meer dan alleen het identificeren van objecten en scènes; Het omvat ook het onderzoeken van hun toestanden, kenmerken en interacties. Ondanks de inherente complexiteit en moeilijkheid van het onderschrijven van beelden, hebben academici indrukwekkende vooruitgang geboekt op dit gebied. De drie belangrijkste op diepe neurale netwerken gebaseerde beeldondertitelingstechnieken die in deze studie worden behandeld, zijn CNN-RNN-gebaseerde, CNN-CNN-gebaseerde en reinforcement learning-frameworks. Er werd een end-to-end trainbaar model voor beeldonderschriften geïntroduceerd, dat computer vision en natuurlijke taalverwerking integreert om coherente beschrijvingen van afbeeldingen^{te genereren 8}. Om een caption te maken, gebruikt het een encoder-decoder framework waarbij een LSTM een afbeelding decodeert in een reeks woorden nadat een vooraf getrainde CNN deze heeft gecodeerd in een featurevector. Ondanks de nadelen ervan, waaronder moeilijkheden met ingewikkelde landschappen, is de bijdrage van het artikel aan visuele en taal-taken toch fundamenteel⁹.

ResNet is het convolutionele neurale netwerk (CNN) dat wordt gebruikt in het beeldondertitelingsmodel van het voorgestelde werk om rijke visuele informatie uit invoerbeelden te extraheren. ResNet dient als encoder om een featurevector te produceren die het beeld vertegenwoordigt, wat meestal wordt gebruikt in een encoder-decoder architectuur. De decoder, die woord-voor-woord beschrijvende onderschriften genereert, ontvangt deze functies en wordt vaak geïmplementeerd met behulp van een recurrent neurale netwerk (RNN), zoals LSTM of GRU. Er kan een aandachtsmechanisme worden toegevoegd om de prestaties te verbeteren door de decoder in staat te stellen zich te richten op specifieke delen van het beeld terwijl hij elk woord genereert. Om de nauwkeurigheid van onderschriften te maximaliseren, wordt het model end-to-end getraind met behulp van een verliesfunctie zoals cross-entropy en een dataset zoals COCO. Transfer learning en ResNet-finetuning kunnen de feature-extractie verbeteren, het model verder versterken en het in staat stellen hoogwaardige, contextueel passende bijschriften te produceren over een breed scala aan afbeeldingen. Bij beeldonderschriften wordt ResNet vaak verkozen boven andere modellen omdat het effectief het probleem van verdwijnende gradiënt aanpakt, een veelvoorkomend probleem in diepe neurale netwerken. Dit wordt mogelijk gemaakt door de nieuwe residual learning-methoden, die aanzienlijk diepere netwerken trainen zonder prestatieverlies te leveren door skip-verbindingen te gebruiken om gradient flow tijdens backpropagation te faciliteren. De multilayer perceptron, een volledig verbonden feed-forward neuraal netwerk, is gekoppeld aan de trainbare laag. De RNN decodeert vervolgens onderschriften met behulp van de softmax-laag, waardoor kandidaat-ondertitels worden geproduceerd. De activatiefunctie is f(x), de voorwaartse identiteitsfunctie is f(x) + x, en x wordt beschouwd als identiteit, geïllustreerd in Figuur 1. In dit geval gebruikt het systeem residuele blokken om het model tijdens de training te kalibreren, en de invoer gaat via zowel gewichtsverbindingen als skipverbindingen, ook wel identiteitssnelkoppelingen genoemd.

Figuur 1: Residueel verbindingsnetwerk. Deze figuur illustreert de architectuur van een residueel netwerk en benadrukt skipverbindingen die de gradiëntstroom verbeteren en verdwijnende gradiënten tijdens diepe netwerktraining beperken. Klik hier om een grotere versie van deze figuur te bekijken.

Stel dat P_l de output is; L is de nee. van residuele blokken; ReLU wordt verondersteld een gebruikelijk blok te zijn als het dicht bij 1 ligt, maar als het niet gelijk is aan 1, kan het worden berekend als:

Vergelijking 1 (1)

Hier is b de toevalsvariabele en k de afbeeldingsfunctie.

Vergelijking 2 (2)

Hier wordt s_l beschouwd als de overlevingskans voor het voorgestelde systeem;

Vergelijking 3 (3)

De resulterende regel voor overlevingskans is;

Vergelijking 4 (4)

Waar S_L de kans op overleving moet hebben en L op het totale geen. van blokken.

Beeldonderschriften is een uitdagende taak die natuurlijke taalverwerking en computervisie combineert om beschrijvende tekstuele bijschriften voor afbeeldingen te produceren. Om dit te doen, moet men de visuele inhoud van een afbeelding begrijpen en interpreteren en deze vertalen naar samenhangende zinnen binnen de context. In dit vakgebied is het hebben van uitgebreide en diverse datasets cruciaal voor modelevaluatie en training. Deze datasets bieden een enorme verscheidenheid aan afbeeldingen en gerelateerde annotaties, die cruciaal zijn voor het ontwikkelen en testen van algoritmes voor beeldonderschriften. De meest gebruikte datasets zijn MSCOCO en Flickr30k, die miljoenen afbeeldingen bevatten en diverse uitdagingen vormen bij beeldverwerking. MSCOCO is veel groter dan Flickr30k11. De MS COCO-dataset is opgesplitst in de volgende sets: 82.783 afbeeldingen voor training, 40.504 voor validatie en 40.775 voor testen.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De implementatie is gedaan met het hoofdmodel, namelijk ResNet-152, samen met een encoder als CNN, een decoder als RNN, en de bronnen uit de Table of Materials.

ResNet-152
ResNet wordt beschouwd als de ruggengraat voor het efficiënter extraheren van functies in het bijschrijven van afbeeldingen. ResNet leverde betere trainingsprestaties dan andere modellen, omdat het het probleem van verdwijnende gradiënt aanpakte en efficiënt oploste. Verschillende objecten kunnen in de afbeeldingen verschijnen, en het model moet hun relaties begrijpen voor betere onderschriften. Daarom kan het worden beschouwd als een hiërarchische feature-extractie. ResNet-152 kan complexe computer vision-taken uitvoeren. Het belangrijkste voordeel van dit model is het effectieve gebruik van residuele of skipverbindingen. Het is zeer effectief in het aanpakken van het probleem van verdwijnende gradiënt. Het kan complexe, robuuste functies leren om een hogere nauwkeurigheid te bereiken. ResNet-152 volgde een bottleneck-ontwerp dat de rekenkosten verlaagde en effectiever werd dan andere architecturen, zoals VGG-16. Het heeft een prominente transfer learning-backbone die geschikt is voor vooraf getrainde modellen en diverse taken zoals objectdetectie en datasegmentatie. De skip-verbinding versnelde de training en maakte het stabieler. In vergelijking met het transformer-gebaseerde model, dat een zelf-aandacht mechanisme gebruikt om sequentiële data te begrijpen, is ResNet heel anders. Een transformer-gebaseerd model vereist een grote hoeveelheid data voor een diepgaand begrip van tekstuele data, wat effectieve resultaten oplevert maar iets langzamer draait. De motivatie om voor ResNet te kiezen is de skip-verbindingen, die de uitvoering versnellen met een aanzienlijke verbetering in resultaten. Op het gebied van beeldonderschriften wordt ResNet gebruikt om de kenmerken te extraheren die het object en de actie in de afbeelding vertegenwoordigen. ResNet gebruikte een residueel netwerk dat gebruikmaakte van skip-verbindingen. Hier kan het residublok worden berekend met referentie van invoer Z als:

Vergelijking 5 (5)

Waarbij Z wordt beschouwd als de invoer van het residuele blok.
Vergelijking 6 is een residuele functie die batchnormalisatie, convolutionele lagen en ReLu-activatie omvat. {x_i} wordt beschouwd als het leergewicht van de overeenkomstige lagen. Z definieert ook de skip connection-identiteit, die ook het probleem van nul gradiënt oplost. ResNet wordt over het algemeen gebruikt als feature extractor voor visuele feature mapping van de afbeeldingen. Hier wordt I beschouwd als de invoerafbeelding om de feature maps te representeren in een hoge visuele feature-representatie V.

Vergelijking 8 (6)

Voordat features worden extraherd, moet de afbeelding vooraf worden verwerkt om de feature-extractie te verbeteren. Het wordt beschouwd als een ruwe afbeelding verzameld uit de MSCOCO-benchmark, dus de eerste stap in de preprocessing is het aanpassen van formaat en normaliseren.

Vergelijking 9 (7)

Vergelijking 10 (8)

Waarbij H^lde hoogte van het beeld is en W^l het gewicht van de afbeelding. Ik_verander de grootte van het formaat van de afbeelding.

Om de pixelwaarde te normaliseren vanuit bereik [-1, 1] of [0, 1]

Vergelijking 15 (9)

Waar μ de wordt beschouwd als de gemiddelde waarde van de pixel σ wordt beschouwd als de standaardafwijking van de referentieafbeelding. Het genormaliseerde beeld wordt nu verder verwerkt voor feature-extractie.

Vergelijking 18 (10)

Waar Vergelijking 19 wordt beschouwd als de kenschapsvector. Wanneer het rij-bijschrift wordt getokeniseerd, wordt het omgezet naar het numerieke formaat.

Vergelijking 20 (11)

Als het bijschrift in woorden splitst, dan

Vergelijking 21 (12)

Hier speelt woordenschat een belangrijke rol, waarbij elk woord uniek wordt geïdentificeerd door gehele getallenindexering.

Vergelijking 22 (13)

Waar V_c wordt beschouwd als een woordenschatfunctie; Het moet worden verzekerd dat alle reeksen een even lengte hebben; dus de maximale hoogte of ideale lengte wordt beschouwd als L_max.

Vergelijking 25 (14)

Nu worden tokens embedded als;

Vergelijking 26 (15)

voor j = 1,2,3, ... .., L_max

Waar Vergelijking 28 wordt beschouwd als een ingebedde vector met K dimensies; nu wordt de decoder gebruikt om het bijschrift te decoderen voor kandidaat-bijschriftgeneratie, dat gebaseerd is op een probabilistisch model.

Vergelijking 29 (16)

Waar w_j een werk is bij tijdstempel j, w_{1: j-1} is het gegenereerde woord bij tijdstempel j-1 en e_j-1 is het ingebedde kenmerk met het vorige woord wj-1. Bij elke tijdstempel wordt het netwerk dat het volgende woord of de kans voorspelt over de woordenschat berekend.

Vergelijking 35 (17)

Waarbij w_output het output gewicht is en b_output de output bias. Dus de maximale kans wordt berekend als

Vergelijking 38 (18)

De maximale lengte van het kandidaat-bijschrift wordt berekend zodra het woord is ontvangen of geïdentificeerd als een speciaal token zoals en . Beam search is ook nuttig om het betere kandidaat-bijschrift te selecteren, dus de volgorde is:

Vergelijking 39 (19)

Vergelijking 40 (20)

Dus het gegenereerde kandidaat-bijschrift is de reeks van Vergelijking 41

Lang kortetermijngeheugen wordt over het algemeen gebruikt bij sequentiegeneratie. LSTM gebruikt een CNN als feature extractor en genereert woorden sequentieel om betekenisvolle zinnen te creëren. LSTM berekent de vergeten poort bij elke tijdstempel T.

Vergelijking 42

Waar f_t wordt beschouwd als vergeten poort, σ als activatiefunctie, w_f als gewicht en b_f als bias,

Y_T wordt beschouwd als invoerkenmerkvector, H_T-1 als verborgen toestand.

Vergelijking 48 (22)

Vergelijking 49 (23)

J_t wordt beschouwd als input, Vergelijking 106 wordt beschouwd als kandidaattoestand, w_j en w_c worden respectievelijk als gewicht voor input en kandidaattoestand beschouwd, b_j & b_c of als bias.

Vergelijking 54 (24)

C_t wordt beschouwd als alle toestanden, C_t-1 wordt beschouwd als de vorige toestand.

Vergelijking 57 (25)

O_t wordt beschouwd als output, w_o als gewicht en b_o als bias. Om de verborgen en celtoestanden te initialiseren, zijn de volgende berekeningen vereist.

Vergelijking 61 (26)

Vergelijking 62 (27)

Waar h_i en C_i respectievelijk worden beschouwd als de verborgen en celtoestand, w_h en w_c gewichten zijn voor respectievelijk de verborgen en zeilceltoestand, b_c en b_h als bias, en k als de feature extractor. De volgorde van het bijschrift wordt als volgt berekend:

Vergelijking 69 (28)

Waar T de lengte is van het gegenereerde bijschrift.

254 × 254 × 3 is het aangepaste of voorbewerkte beeld, en I wordt beschouwd als het invoerbeeld.

Vergelijking 71 (29)

Waar W en b respectievelijk als gewicht en bias worden beschouwd, I als inputfuncties, en ReLU de activatiefunctie. Het is de berekening van de convolutionele laag. Nu kan de poolinglaag worden berekend als:

Vergelijking 72 (30)

Na het afronden van de poollaag; De volledig verbonden laag kan worden weergegeven als:

Vergelijking 73 (31)

Waarbij w_f en b_f respectievelijk worden beschouwd als gewicht en bias van het netwerk.

Vergelijking 74 (32)

Vergelijking 75 (33)

Waarbij N wordt beschouwd als het ruimtelijke gebied en d als de dimensie van het kenmerk.

Vergelijking 76 (34)

Vergelijking 77 (35)

Waarbij w_h en b_h respectievelijk worden beschouwd als gewicht en bias van de verborgen toestand, w _c en b_c respectievelijk als gewicht en bias van de celtoestand. Bijschrift kan worden gegenereerd als:

Vergelijking 78 (36)

Encoder en decoder
Het voorgestelde systeem codeert de gegevens voor machinevertaling met behulp van een CNN. In dit geval zijn zowel de invoer als de uitgang reeksen, maar ze kunnen in lengte verschillen. Eén voor één codeert en decodeert de machine elke vector. Met een vector als uitgangspunt begint de machine met coderingen en decoderen, en blijft berekenen tot de uiteindelijke voorwaardelijke kansverdeling. Een voorbeeld is als volgt:

Vergelijking 80 (37)

Dit wordt beschouwd als de kansverdeling.

Het systeem kan de gegevens coderen in de vorm van een vectorafbeelding, en deze kan later worden gedecodeerd. fc_n (I) wordt beschouwd als het beeldmodel voor beeldbegrip.

Vergelijking 83 (38)

Vergelijking 84 (39)

Vergelijking 85 (40)

S₁ is de volgende iteratie van S₀, en S₂ is de daaropvolgende iteratie van S₁. Men zou kunnen zeggen dat elke invoer afhangt van de uitvoer van de vorige laag. Beelden worden door CNN omgezet in vectoren en naar de volgende laag gestuurd, die alle vectoren doorloopt. Hier wordt een aandachtsmechanisme gebruikt om de woorden sequentieel te rangschikken tot een betekenisvolle zin nadat de RNN de vectoren in woorden heeft ontcijferd.

Vergelijking 86 (41)

Waarbij T de lengte van de invoer is.

Vergelijking 87 (42)

Vergelijking 88 (43)

k₁, k₂, k₃, k₄, ......, k_t-1 zijn verborgen decodeerstaten.

Figuur 2: Encodeer- en decodeermodel. Deze figuur toont het encoder–decoder-framework dat wordt gebruikt voor beeldonderschriften, en laat zien hoe beeldkenmerken worden gecodeerd in vectorrepresentaties en vervolgens worden gedecodeerd in sequentiële tekstuele beschrijvingen. Klik hier om een grotere versie van deze figuur te bekijken.

Procesmodel
Zie Figuur 3, dat het stroomdiagram van de trainingsmodules toont, waarbij de dataset en de grondwaarheidsonderschriften als eerste werden geladen. Nadat de data is genormaliseerd voor CNN-codering, wordt het ResNet-model geïnitialiseerd en getraind met behulp van de geëxtraheerde features. RNN en de systeemspecifieke woorden die met start- en eindmarkeringen zijn getagd, kunnen vervolgens worden gebruikt om het bijschrift te decoderen. Het systeem voltooit de extractie als het laatste woord wordt gevonden, en N is het totale aantal woorden in het kandidaat-bijschrift.

Figuur 3: Stroomdiagram van het trainingsmodel. Deze figuur geeft een stapsgewijs beeld van het proces dat gepaard gaat met het trainen van het model, inclusief datapreprocessing, feature-extractie, modelleren en optimalisatie. Klik hier om een grotere versie van deze figuur te bekijken.

Het stroomdiagram van het testmodel is weergegeven in Figuur 4, waar het systeem eerst de encoder- en decodermodellen laadt, en vervolgens het ResNet-model en de invoergegevens laadt voor het extraheren van bijschriften. Als er geen decodeerfouten zijn gemaakt, kan er van het eerste tot het laatste woord worden gevolgd. Nadat het laatste woord is bereikt, kunnen ontcijferde woorden worden verkregen en kan een bijschrift worden gemaakt door een aandachtsmechanisme te gebruiken om de woorden op een betekenisvolle manier achter elkaar te ordenen. De bundelgrootte van het trainingsmodel is vijf met een maximale lengte van 20, en de batchgrootte is 128 met 20 epochs.

Figuur 4: Stroomdiagram van het testmodel. Deze figuur toont de testworkflow en laat zien hoe invoerbeelden worden verwerkt door het getrainde model om onderschriften te genereren en prestaties te evalueren. Klik hier om een grotere versie van deze figuur te bekijken.

ResNet-152 beeldondertitelingsalgoritme
Initialiseer de invoer- en uitvoerparameters, en hier wordt de invoer genomen als de verzameling MSCOCO-afbeeldingen aangezien I = (i₁, i₂, i₃, ....... iN) samen met annotatie J = (j₁, j₂, j₃, ......... j_N) en de output wordt berekend als onderschriften. In de allereerste stap is invoer vereist, waarna de beelden vooraf worden verwerkt door de beeldverhouding te vergroten als

Vergelijking 92 (44)

Waarbij w en h de oorspronkelijke breedte en hoogte van het beeld zijn, w_new en h_new de aangepaste afmetingen, wordt T_s beschouwd als een vooraf gedefinieerde doelgrootte (T_s = 224), max(w, h) definieert de grootste dimensie, die is geschaald om de beeldverhouding te behouden.

Na feature-extractie is het vereist om het identiteitsblok als volgt te declareren

Vergelijking 100 (45)

Initialiseer vervolgens de parameters zoals batchgrootte, aantal epochs, W_verborgenals gewicht voor verborgen lagen, W_output als uitgangslaag, en B-hoogte en_B-biasals bias. Zodra de initialisatie is voltooid, is het nodig om de output van de convolutionele laag te berekenen.

Vergelijking 101 (46)

Het kan worden beschouwd als een normaal ReLU-blok als b_l gelijk is aan 1. Maar als b_l niet gelijk is aan 1 of gelijk aan 0, dan zou het dat zijn;

Vergelijking 102 (47)

Bereken vervolgens de overlevingshaalbaarheid door

Vergelijking 103 (48)

Waarbij F_K wordt beschouwd als de overlevingshaalbaarheid van het systeem, en K wordt genomen als een representatie van het totale aantal blokken in het model. Bereken vervolgens de kansverdeling

Vergelijking 104 (49)

Zodra de kansverdeling is berekend, bouwt het het model om deze te benaderen en de data te decoderen met behulp van de gegevens.

Vergelijking 105 /9500

k₁, k₂, k₃, k₄, ......, k_t-1 zijn verborgen decodeerstaten.

Bij het openen van het model is het vereist om aandachtsmechanismen toe te passen voor het genereren van onderschriften, waarbij het kandidaat-bijschrift wordt geëvalueerd aan de hand van het referentieonderschrift; de uiteindelijke metrics kunnen vervolgens worden geëvalueerd met behulp van BLEU, METEOR, CIDEr en ROUGE.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Software- en omgevingsspecificaties
Python 3.10 was de belangrijkste programmeertaal die voor de experimenten werd gebruikt. Visual Studio Code werd gebruikt om de ontwikkelomgeving (VS Code) op te zetten. Belangrijke bibliotheken die in dit onderzoek worden gebruikt zijn onder andere Pickle voor dataserialisatie, multiprocessing voor parallelle verwerking, glob voor bestandsverwerking en PyTorch voor de ontwikkeling van deep learning-modellen. De hardwareconfiguratie omvatte 256 GB opslag, 8 GB RAM e...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Op het gebied van kunstmatige intelligentie is het onderschriften van afbeeldingen een moeilijke taak. Beeldonderschriften zijn onderwerp geweest van talloze studies, en scherpe of precieze ondertiteling vereist nog steeds het hoogste niveau van precisie. Veel machine learning-technieken kunnen worden gebruikt om het doel van beeldondertiteling te bereiken, en talrijke studies hebben CNN, RNN en ResNet-152 gebruikt. Echter, meer precisie en kortere verwerkingstijd zijn noodzakelijk. Het ...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteurs geven aan dat zij geen concurrerende financiële belangen of persoonlijke relaties hebben die invloed hadden kunnen hebben op het werk dat in dit artikel wordt gerapporteerd.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wij erkennen de makers van de MSCOCO-datasets voor het leveren van de benchmarks die in deze studie zijn gebruikt. De auteurs verklaren dat er geen externe financiering voor deze studie is ontvangen.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	AMD Ryzen 5000 Series is een reeks high-performance processors ontwikkeld door AMD, gebaseerd op de Zen 3-architectuur. Deze processors worden veel gebruikt in desktops en laptops voor zowel algemeen computing als veeleisende taken zoals dataverwerking en machine learning workflows.
GPU	NVIDIA	4.71933E+12	De NVIDIA GeForce GTX is een serie grafische verwerkingseenheden (GPU's) ontwikkeld door NVIDIA, veel gebruikt voor gaming evenals algemene computing taken zoals deep learning en beeldverwerking.
Intel Core i5	Intel	BX8071514400F	Intel Core i5 is een middenklasse processorserie ontwikkeld door Intel, veel gebruikt in personal computers voor zowel algemene als computationele taken.
Python 3.10	Python Software Foundation	PEP 619	Python is een hoogwaardige, geïnterpreteerde programmeertaal die veel wordt gebruikt in wetenschappelijk rekenen, data-analyse en machine learning. Het staat bekend om zijn eenvoud, leesbaarheid en uitgebreide ecosysteem van bibliotheken.
PyTorch	Facebook	26.03-py3	PyTorch is een open-source deep learning framework ontwikkeld door Meta Platforms (voorheen Facebook), veel gebruikt voor het bouwen en trainen van neurale netwerken in onderzoek en industrie.
Visual Studio Code	Microsoft	None	Visual Studio Code (VS Code) is een lichtgewicht, open-source code-editor ontwikkeld door Microsoft. Het wordt veel gebruikt voor softwareontwikkeling, inclusief machine learning en deep learning projecten.
Windows 11	Microsoft	KB5083631	Windows 11 is een besturingssysteem ontwikkeld door Microsoft, veel gebruikt voor algemeen computing evenals softwareontwikkeling en machine learning taken.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Beeldonderschriftengeneratie met behulp van deep learning-benaderingen

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles