Research Article

Beeldonderschriftengeneratie met behulp van deep learning-benaderingen

June 12th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dit protocol maakt gebruik van CNN's, RNNs en ResNets voor het bijschrijven van afbeeldingen, waarbij beschrijvingen worden gehaald van de activiteiten, mensen, objecten en andere elementen van de afbeeldingen. Dit is gerechtvaardigd met BLEU-, CIDEr-, METEOR- en ROUGE-metrics-scores.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Het genereren van beeldonderschriften is een poging om een betekenisvolle tekstuele beschrijving te bieden die een afbeelding bevat. Extraherde informatie is relevant voor de activiteiten die in de beelden aanwezig zijn. ResNet (Residual Network) staat bekend om zijn vermogen om afbeeldingen te classificeren en heeft diepgaande hiërarchische representaties ontwikkeld. De bedoeling van dit artikel is om ResNet met verschillende slimme filters te gebruiken om afbeeldingen dieper te classificeren, waardoor echte en betekenisvolle beschrijvingen kunnen worden gegenereerd die zeer precies zijn met betrekking tot de referentiebijschriften. Hier gebruikt het werk een slimme filtertechniek om beelden te verbeteren, een CNN om features te coderen, modeltraining, en daarna een RNN (Recurrent Neural Network) om de features te decoderen. ResNet is een zeer effectief model voor computer vision-taken, vooral objectclassificatie en semantische analyse. ResNet staat bekend om residuele verbindingen, die ook wel overslaande verbindingen worden genoemd die het verdwijningsgradiëntprobleem oplossen, een cruciaal probleem in deep learning. Hier wordt de MSCOCO (Microsoft Common Object in Context) benchmark gebruikt om het model te trainen, een grote dataset met referentie-annotaties die nuttig zijn voor diverse computer vision-taken. ResNet helpt de generalisatiemogelijkheid te verbeteren, wat vooral nuttig is voor diverse afbeeldingen. Volgens de behaalde resultaten zijn BLUE-scores B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEOR: 0,195; ROUGE: 0,396; en CIDEr: 0,6.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Op het gebied van computer vision en natuurlijke taalverwerking is beeldonderschriften een cruciale taak die een beschrijving van het beeld en de handelingen die het afbeeldt oplevert. De bedoeling van het model is om beelden te begrijpen en de informatie te vertalen naar betekenisvolle zinnen of bijschriften1. De hele procedure bestaat uit twee belangrijke fasen: de eerste is feature-extractie, waarbij een CNN-model wordt gebruikt; de tweede is beeldbeschrijving met een RNN en daartussenin wordt ResNet gebruikt voor semantische analyse, sequentiegeneratie en een aandachtsmechanisme. ResNet verschilt sterk van template-gebaseerde methoden of DenseNet-gebaseerde modules omdat het skip-verbindingen gebruikt die de uitvoeringstijd verkorten en de prestaties verbeteren. Er zijn talloze toepassingen van beeldonderschriften, waaronder het helpen van slechtzienden, het versterken van sociale mediaplatforms, het optimaliseren van beeldgebaseerde zoekmachines, beeldgebaseerde AI (kunstmatige intelligentie) en nogveel meer.

In computer vision is sceneherkenning het proces waarbij de algemene context of omgeving van het beeld wordt geïdentificeerd en geclassificeerd, zoals een strand, stadsgezicht, bos of kantoor. In tegenstelling tot objectherkenning, die zich richt op individuele items, houdt scèneherkenning rekening met texturen, ruimtelijke indelingen en objectrelaties om de grotere context te begrijpen. Het gebruikt CNN's en Vision Transformers, deep learning-modellen die zijn getraind op grote datasets zoals Places365 en ImageNet. Toepassingen omvatten beveiligingsbewaking, augmented en virtual reality (AR en VR) voor meeslepende ervaringen, robotica voor milieubewustzijn en autonome voertuigen voor navigatie. Ondanks vooruitgang maken problemen zoals verschuivende gezichtspunten, occlusies en veranderende verlichting scèneherkenning tot een hot topic in het onderzoek naar computer vision en kunstmatige intelligentie. Een ander fundamenteel probleem in computer vision is scèneherkenning.

EnsCaption, een dual generatief adversarieel netwerkmodel, werd voorgesteld om een generatie–retrieval ensemble-techniekte verbeteren 3. Deze lay-out maakt harmonieuze, voortplantingsgebaseerde beeldondertitelingsmethoden mogelijk die onderschriften genereren die aansluiten bij de bestaande doelen. Terwijl de ophaaltechniek een positie- of grading-gebaseerd model gebruikt om het beste model te selecteren om informatie nauwkeuriger te extraheren dan de andere in de afbeeldingsgebaseerde query. Een mapping van afbeeldingen naar een "betekenisruimte" werd geïntroduceerd met behulp van visuele componenten zoals objecten, activiteiten en scènes, die vervolgens werden uitgelijnd met de bijbehorende verbale sjablonen4. Met behulp van de correlaties en kwaliteiten die in de beelden worden gevonden, construeert de benadering zinnen. Zinnen drukken informatie op een rijke, compacte en subtiele manier uit. Sjabloongebaseerde bijschriftgeneratie werd verbeterd door kennis van gezond verstand te integreren om het semantisch begrip te verbeteren5. Deze techniek breidde het bereik van het sjabloon uit voorbij directe beeldkenmerken en omvatte afgeleide associaties. Dit werk gebruikt een bestaande objectdetectiedataset om 16.000 logische statements te extraheren voor elke geannoteerde categorie. Daarnaast werd generalisatie bereikt met WordNet, waardoor een groot aantal feiten over voorheen onbekende objecten werden geïnduceerd6. Biedt een overzicht van een georganiseerde taxonomie van deep learning-technieken voor het bijschrijven van afbeeldingen, waaronder onderwerpen als aandachtsmechanismen, reinforcement learning-tactieken en encoder-decoder frameworks. Naast het behandelen van kwesties zoals objecthallucinaties en contextuele begrip, onderzoekt het ook veelgebruikte datasets en beoordelingscriteria. De auteurs wijzen op gebieden voor verder onderzoek, zoals het verbeteren van visie-taalvoortrainingstechnieken en het verminderen van datasetbias. Een semantische analysebenadering gebaseerd op convolutionele neurale netwerken en recurrente neurale netwerken werd onderzocht voor beeldondertitelingstaken7. Beeldonderschriften zijn een van de bekendste toepassingen, waardoor computers suggestieve zinnen kunnen produceren die een afbeelding omvatten. Om hoog-niveau semantische beschrijvingen te bieden, omvat deze procedure meer dan alleen het identificeren van objecten en scènes; Het omvat ook het onderzoeken van hun toestanden, kenmerken en interacties. Ondanks de inherente complexiteit en moeilijkheid van het onderschrijven van beelden, hebben academici indrukwekkende vooruitgang geboekt op dit gebied. De drie belangrijkste op diepe neurale netwerken gebaseerde beeldondertitelingstechnieken die in deze studie worden behandeld, zijn CNN-RNN-gebaseerde, CNN-CNN-gebaseerde en reinforcement learning-frameworks. Er werd een end-to-end trainbaar model voor beeldonderschriften geïntroduceerd, dat computer vision en natuurlijke taalverwerking integreert om coherente beschrijvingen van afbeeldingente genereren 8. Om een caption te maken, gebruikt het een encoder-decoder framework waarbij een LSTM een afbeelding decodeert in een reeks woorden nadat een vooraf getrainde CNN deze heeft gecodeerd in een featurevector. Ondanks de nadelen ervan, waaronder moeilijkheden met ingewikkelde landschappen, is de bijdrage van het artikel aan visuele en taal-taken toch fundamenteel9.

ResNet is het convolutionele neurale netwerk (CNN) dat wordt gebruikt in het beeldondertitelingsmodel van het voorgestelde werk om rijke visuele informatie uit invoerbeelden te extraheren. ResNet dient als encoder om een featurevector te produceren die het beeld vertegenwoordigt, wat meestal wordt gebruikt in een encoder-decoder architectuur. De decoder, die woord-voor-woord beschrijvende onderschriften genereert, ontvangt deze functies en wordt vaak geïmplementeerd met behulp van een recurrent neurale netwerk (RNN), zoals LSTM of GRU. Er kan een aandachtsmechanisme worden toegevoegd om de prestaties te verbeteren door de decoder in staat te stellen zich te richten op specifieke delen van het beeld terwijl hij elk woord genereert. Om de nauwkeurigheid van onderschriften te maximaliseren, wordt het model end-to-end getraind met behulp van een verliesfunctie zoals cross-entropy en een dataset zoals COCO. Transfer learning en ResNet-finetuning kunnen de feature-extractie verbeteren, het model verder versterken en het in staat stellen hoogwaardige, contextueel passende bijschriften te produceren over een breed scala aan afbeeldingen. Bij beeldonderschriften wordt ResNet vaak verkozen boven andere modellen omdat het effectief het probleem van verdwijnende gradiënt aanpakt, een veelvoorkomend probleem in diepe neurale netwerken. Dit wordt mogelijk gemaakt door de nieuwe residual learning-methoden, die aanzienlijk diepere netwerken trainen zonder prestatieverlies te leveren door skip-verbindingen te gebruiken om gradient flow tijdens backpropagation te faciliteren. De multilayer perceptron, een volledig verbonden feed-forward neuraal netwerk, is gekoppeld aan de trainbare laag. De RNN decodeert vervolgens onderschriften met behulp van de softmax-laag, waardoor kandidaat-ondertitels worden geproduceerd. De activatiefunctie is f(x), de voorwaartse identiteitsfunctie is f(x) + x, en x wordt beschouwd als identiteit, geïllustreerd in Figuur 1. In dit geval gebruikt het systeem residuele blokken om het model tijdens de training te kalibreren, en de invoer gaat via zowel gewichtsverbindingen als skipverbindingen, ook wel identiteitssnelkoppelingen genoemd.

figure-introduction-1
Figuur 1: Residueel verbindingsnetwerk. Deze figuur illustreert de architectuur van een residueel netwerk en benadrukt skipverbindingen die de gradiëntstroom verbeteren en verdwijnende gradiënten tijdens diepe netwerktraining beperken. Klik hier om een grotere versie van deze figuur te bekijken.

Stel dat Pl de output is; L is de nee. van residuele blokken; ReLU wordt verondersteld een gebruikelijk blok te zijn als het dicht bij 1 ligt, maar als het niet gelijk is aan 1, kan het worden berekend als:

figure-introduction-2(1)

Hier is b de toevalsvariabele en k de afbeeldingsfunctie.

figure-introduction-3(2)

Hier wordt sl beschouwd als de overlevingskans voor het voorgestelde systeem;

figure-introduction-4(3)

De resulterende regel voor overlevingskans is;

figure-introduction-5(4)

Waar SL de kans op overleving moet hebben en L op het totale geen. van blokken.

Beeldonderschriften is een uitdagende taak die natuurlijke taalverwerking en computervisie combineert om beschrijvende tekstuele bijschriften voor afbeeldingen te produceren. Om dit te doen, moet men de visuele inhoud van een afbeelding begrijpen en interpreteren en deze vertalen naar samenhangende zinnen binnen de context. In dit vakgebied is het hebben van uitgebreide en diverse datasets cruciaal voor modelevaluatie en training. Deze datasets bieden een enorme verscheidenheid aan afbeeldingen en gerelateerde annotaties, die cruciaal zijn voor het ontwikkelen en testen van algoritmes voor beeldonderschriften. De meest gebruikte datasets zijn MSCOCO en Flickr30k, die miljoenen afbeeldingen bevatten en diverse uitdagingen vormen bij beeldverwerking. MSCOCO is veel groter dan Flickr30k11. De MS COCO-dataset is opgesplitst in de volgende sets: 82.783 afbeeldingen voor training, 40.504 voor validatie en 40.775 voor testen.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De implementatie is gedaan met het hoofdmodel, namelijk ResNet-152, samen met een encoder als CNN, een decoder als RNN, en de bronnen uit de Table of Materials.

ResNet-152
ResNet wordt beschouwd als de ruggengraat voor het efficiënter extraheren van functies in het bijschrijven van afbeeldingen. ResNet leverde betere trainingsprestaties dan andere modellen, omdat het het probleem van verdwijnende gradiënt aanpakte en efficiënt oploste. Verschillende objecten kunnen in de afbeeldingen verschijnen, en het model moet hun relaties begrijpen voor betere onderschriften. Daarom kan het worden beschouwd als een hiërarchische feature-extractie. ResNet-152 kan complexe computer vision-taken uitvoeren. Het belangrijkste voordeel van dit model is het effectieve gebruik van residuele of skipverbindingen. Het is zeer effectief in het aanpakken van het probleem van verdwijnende gradiënt. Het kan complexe, robuuste functies leren om een hogere nauwkeurigheid te bereiken. ResNet-152 volgde een bottleneck-ontwerp dat de rekenkosten verlaagde en effectiever werd dan andere architecturen, zoals VGG-16. Het heeft een prominente transfer learning-backbone die geschikt is voor vooraf getrainde modellen en diverse taken zoals objectdetectie en datasegmentatie. De skip-verbinding versnelde de training en maakte het stabieler. In vergelijking met het transformer-gebaseerde model, dat een zelf-aandacht mechanisme gebruikt om sequentiële data te begrijpen, is ResNet heel anders. Een transformer-gebaseerd model vereist een grote hoeveelheid data voor een diepgaand begrip van tekstuele data, wat effectieve resultaten oplevert maar iets langzamer draait. De motivatie om voor ResNet te kiezen is de skip-verbindingen, die de uitvoering versnellen met een aanzienlijke verbetering in resultaten. Op het gebied van beeldonderschriften wordt ResNet gebruikt om de kenmerken te extraheren die het object en de actie in de afbeelding vertegenwoordigen. ResNet gebruikte een residueel netwerk dat gebruikmaakte van skip-verbindingen. Hier kan het residublok worden berekend met referentie van invoer Z als:

figure-protocol-1(5)

Waarbij Z wordt beschouwd als de invoer van het residuele blok.
figure-protocol-2is een residuele functie die batchnormalisatie, convolutionele lagen en ReLu-activatie omvat. {xi} wordt beschouwd als het leergewicht van de overeenkomstige lagen. Z definieert ook de skip connection-identiteit, die ook het probleem van nul gradiënt oplost. ResNet wordt over het algemeen gebruikt als feature extractor voor visuele feature mapping van de afbeeldingen. Hier wordt I beschouwd als de invoerafbeelding om de feature maps te representeren in een hoge visuele feature-representatie V.

figure-protocol-3(6)

Voordat features worden extraherd, moet de afbeelding vooraf worden verwerkt om de feature-extractie te verbeteren. Het wordt beschouwd als een ruwe afbeelding verzameld uit de MSCOCO-benchmark, dus de eerste stap in de preprocessing is het aanpassen van formaat en normaliseren.

figure-protocol-4(7)

figure-protocol-5(8)

Waarbij Hl de hoogte van het beeld is en Wl het gewicht van de afbeelding. Ikverander de grootte van het formaat van de afbeelding.

Om de pixelwaarde te normaliseren vanuit bereik [-1, 1] of [0, 1]

figure-protocol-6(9)

Waar μ de wordt beschouwd als de gemiddelde waarde van de pixel σ wordt beschouwd als de standaardafwijking van de referentieafbeelding. Het genormaliseerde beeld wordt nu verder verwerkt voor feature-extractie.

figure-protocol-7(10)

Waar figure-protocol-8 wordt beschouwd als de kenschapsvector. Wanneer het rij-bijschrift wordt getokeniseerd, wordt het omgezet naar het numerieke formaat.

figure-protocol-9(11)

Als het bijschrift in woorden splitst, dan

figure-protocol-10(12)

Hier speelt woordenschat een belangrijke rol, waarbij elk woord uniek wordt geïdentificeerd door gehele getallenindexering.

figure-protocol-11(13)

Waar Vc wordt beschouwd als een woordenschatfunctie; Het moet worden verzekerd dat alle reeksen een even lengte hebben; dus de maximale hoogte of ideale lengte wordt beschouwd als Lmax.

figure-protocol-12(14)

Nu worden tokens embedded als;

figure-protocol-13(15)

voor j = 1,2,3, ... .., Lmax

Waar figure-protocol-14 wordt beschouwd als een ingebedde vector met K dimensies; nu wordt de decoder gebruikt om het bijschrift te decoderen voor kandidaat-bijschriftgeneratie, dat gebaseerd is op een probabilistisch model.

figure-protocol-15(16)

Waar wj een werk is bij tijdstempel j, w1: j-1 is het gegenereerde woord bij tijdstempel j-1 en ej-1 is het ingebedde kenmerk met het vorige woord wj-1. Bij elke tijdstempel wordt het netwerk dat het volgende woord of de kans voorspelt over de woordenschat berekend.

figure-protocol-16(17)

Waarbij woutput het output gewicht is en boutput de output bias. Dus de maximale kans wordt berekend als

figure-protocol-17(18)

De maximale lengte van het kandidaat-bijschrift wordt berekend zodra het woord is ontvangen of geïdentificeerd als een speciaal token zoals en . Beam search is ook nuttig om het betere kandidaat-bijschrift te selecteren, dus de volgorde is:

figure-protocol-18(19)

figure-protocol-19(20)

Dus het gegenereerde kandidaat-bijschrift is de reeks van figure-protocol-20

Lang kortetermijngeheugen wordt over het algemeen gebruikt bij sequentiegeneratie. LSTM gebruikt een CNN als feature extractor en genereert woorden sequentieel om betekenisvolle zinnen te creëren. LSTM berekent de vergeten poort bij elke tijdstempel T.

figure-protocol-21

Waar ft wordt beschouwd als vergeten poort, σ als activatiefunctie, wf als gewicht en bf als bias,

YT wordt beschouwd als invoerkenmerkvector, HT-1 als verborgen toestand.

figure-protocol-22(22)

figure-protocol-23(23)

Jt wordt beschouwd als input, figure-protocol-24 wordt beschouwd als kandidaattoestand, wj en wc worden respectievelijk als gewicht voor input en kandidaattoestand beschouwd, bj & bc of als bias.

figure-protocol-25(24)

Ct wordt beschouwd als alle toestanden, Ct-1 wordt beschouwd als de vorige toestand.

figure-protocol-26(25)

Ot wordt beschouwd als output, wo als gewicht en bo als bias. Om de verborgen en celtoestanden te initialiseren, zijn de volgende berekeningen vereist.

figure-protocol-27(26)

figure-protocol-28(27)

Waar hi en Ci respectievelijk worden beschouwd als de verborgen en celtoestand, wh en wc gewichten zijn voor respectievelijk de verborgen en zeilceltoestand, bc en bh als bias, en k als de feature extractor. De volgorde van het bijschrift wordt als volgt berekend:

figure-protocol-29(28)

Waar T de lengte is van het gegenereerde bijschrift.

254 × 254 × 3 is het aangepaste of voorbewerkte beeld, en I wordt beschouwd als het invoerbeeld.

figure-protocol-30(29)

Waar W en b respectievelijk als gewicht en bias worden beschouwd, I als inputfuncties, en ReLU de activatiefunctie. Het is de berekening van de convolutionele laag. Nu kan de poolinglaag worden berekend als:

figure-protocol-31(30)

Na het afronden van de poollaag; De volledig verbonden laag kan worden weergegeven als:

figure-protocol-32(31)

Waarbij wf en bf respectievelijk worden beschouwd als gewicht en bias van het netwerk.

figure-protocol-33(32)

figure-protocol-34(33)

Waarbij N wordt beschouwd als het ruimtelijke gebied en d als de dimensie van het kenmerk.

figure-protocol-35(34)

figure-protocol-36(35)

Waarbij wh en bh respectievelijk worden beschouwd als gewicht en bias van de verborgen toestand, w c en bc respectievelijk als gewicht en bias van de celtoestand. Bijschrift kan worden gegenereerd als:

figure-protocol-37(36)

Encoder en decoder
Het voorgestelde systeem codeert de gegevens voor machinevertaling met behulp van een CNN. In dit geval zijn zowel de invoer als de uitgang reeksen, maar ze kunnen in lengte verschillen. Eén voor één codeert en decodeert de machine elke vector. Met een vector als uitgangspunt begint de machine met coderingen en decoderen, en blijft berekenen tot de uiteindelijke voorwaardelijke kansverdeling. Een voorbeeld is als volgt:

figure-protocol-38(37)

Dit wordt beschouwd als de kansverdeling.

Het systeem kan de gegevens coderen in de vorm van een vectorafbeelding, en deze kan later worden gedecodeerd. fcn (I) wordt beschouwd als het beeldmodel voor beeldbegrip.

figure-protocol-39(38)

figure-protocol-40(39)

figure-protocol-41(40)

S1 is de volgende iteratie van S0, en S2 is de daaropvolgende iteratie van S1. Men zou kunnen zeggen dat elke invoer afhangt van de uitvoer van de vorige laag. Beelden worden door CNN omgezet in vectoren en naar de volgende laag gestuurd, die alle vectoren doorloopt. Hier wordt een aandachtsmechanisme gebruikt om de woorden sequentieel te rangschikken tot een betekenisvolle zin nadat de RNN de vectoren in woorden heeft ontcijferd.

figure-protocol-42(41)

Waarbij T de lengte van de invoer is.

figure-protocol-43(42)

figure-protocol-44(43)

k1, k2, k3, k4, ......, kt-1 zijn verborgen decodeerstaten.

figure-protocol-45
Figuur 2: Encodeer- en decodeermodel. Deze figuur toont het encoder–decoder-framework dat wordt gebruikt voor beeldonderschriften, en laat zien hoe beeldkenmerken worden gecodeerd in vectorrepresentaties en vervolgens worden gedecodeerd in sequentiële tekstuele beschrijvingen. Klik hier om een grotere versie van deze figuur te bekijken.

Procesmodel
Zie Figuur 3, dat het stroomdiagram van de trainingsmodules toont, waarbij de dataset en de grondwaarheidsonderschriften als eerste werden geladen. Nadat de data is genormaliseerd voor CNN-codering, wordt het ResNet-model geïnitialiseerd en getraind met behulp van de geëxtraheerde features. RNN en de systeemspecifieke woorden die met start- en eindmarkeringen zijn getagd, kunnen vervolgens worden gebruikt om het bijschrift te decoderen. Het systeem voltooit de extractie als het laatste woord wordt gevonden, en N is het totale aantal woorden in het kandidaat-bijschrift.

figure-protocol-46
Figuur 3: Stroomdiagram van het trainingsmodel. Deze figuur geeft een stapsgewijs beeld van het proces dat gepaard gaat met het trainen van het model, inclusief datapreprocessing, feature-extractie, modelleren en optimalisatie. Klik hier om een grotere versie van deze figuur te bekijken.

Het stroomdiagram van het testmodel is weergegeven in Figuur 4, waar het systeem eerst de encoder- en decodermodellen laadt, en vervolgens het ResNet-model en de invoergegevens laadt voor het extraheren van bijschriften. Als er geen decodeerfouten zijn gemaakt, kan er van het eerste tot het laatste woord worden gevolgd. Nadat het laatste woord is bereikt, kunnen ontcijferde woorden worden verkregen en kan een bijschrift worden gemaakt door een aandachtsmechanisme te gebruiken om de woorden op een betekenisvolle manier achter elkaar te ordenen. De bundelgrootte van het trainingsmodel is vijf met een maximale lengte van 20, en de batchgrootte is 128 met 20 epochs.

figure-protocol-47
Figuur 4: Stroomdiagram van het testmodel. Deze figuur toont de testworkflow en laat zien hoe invoerbeelden worden verwerkt door het getrainde model om onderschriften te genereren en prestaties te evalueren. Klik hier om een grotere versie van deze figuur te bekijken.

ResNet-152 beeldondertitelingsalgoritme
Initialiseer de invoer- en uitvoerparameters, en hier wordt de invoer genomen als de verzameling MSCOCO-afbeeldingen aangezien I = (i1, i2, i3, ....... iN) samen met annotatie J = (j1, j2, j3, ......... jN) en de output wordt berekend als onderschriften. In de allereerste stap is invoer vereist, waarna de beelden vooraf worden verwerkt door de beeldverhouding te vergroten als

figure-protocol-48(44)

Waarbij w en h de oorspronkelijke breedte en hoogte van het beeld zijn, wnew en hnew de aangepaste afmetingen, wordt Ts beschouwd als een vooraf gedefinieerde doelgrootte (Ts = 224), max(w, h) definieert de grootste dimensie, die is geschaald om de beeldverhouding te behouden.

Na feature-extractie is het vereist om het identiteitsblok als volgt te declareren

figure-protocol-49(45)

Initialiseer vervolgens de parameters zoals batchgrootte, aantal epochs, Wverborgen als gewicht voor verborgen lagen, Woutput als uitgangslaag, en B-hoogte enB-bias als bias. Zodra de initialisatie is voltooid, is het nodig om de output van de convolutionele laag te berekenen.

figure-protocol-50(46)

Het kan worden beschouwd als een normaal ReLU-blok als bl gelijk is aan 1. Maar als bl niet gelijk is aan 1 of gelijk aan 0, dan zou het dat zijn;

figure-protocol-51(47)

Bereken vervolgens de overlevingshaalbaarheid door

figure-protocol-52(48)

Waarbij FK wordt beschouwd als de overlevingshaalbaarheid van het systeem, en K wordt genomen als een representatie van het totale aantal blokken in het model. Bereken vervolgens de kansverdeling

figure-protocol-53(49)

Zodra de kansverdeling is berekend, bouwt het het model om deze te benaderen en de data te decoderen met behulp van de gegevens.

figure-protocol-54/9500

k1, k2, k3, k4, ......, kt-1 zijn verborgen decodeerstaten.

Bij het openen van het model is het vereist om aandachtsmechanismen toe te passen voor het genereren van onderschriften, waarbij het kandidaat-bijschrift wordt geëvalueerd aan de hand van het referentieonderschrift; de uiteindelijke metrics kunnen vervolgens worden geëvalueerd met behulp van BLEU, METEOR, CIDEr en ROUGE.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Software- en omgevingsspecificaties
Python 3.10 was de belangrijkste programmeertaal die voor de experimenten werd gebruikt. Visual Studio Code werd gebruikt om de ontwikkelomgeving (VS Code) op te zetten. Belangrijke bibliotheken die in dit onderzoek worden gebruikt zijn onder andere Pickle voor dataserialisatie, multiprocessing voor parallelle verwerking, glob voor bestandsverwerking en PyTorch voor de ontwikkeling van deep learning-modellen. De hardwareconfiguratie omvatte 256 GB opslag, 8 GB RAM en een NVIDIA GTX-serie GPU met CUDA-ondersteuning voor snellere berekeningen. Voor de experimenten werd een computer gebruikt met ofwel een AMD Ryzen 5000-serie processor of een Intel Core i5-processor. Windows 10/11 was het besturingssysteem dat voor de implementatie werd gebruikt. Het is eenvoudig te begrijpen uit de tabel met milieuspecificaties in Tabel 1.

MateriaalSpecificatie
GPUNVIDIA GTX-serie
BibliothekenPyTorch, Pickle, Multiprogrammering, Glob
OSWindows 10/11
ProcessorIntel Core i5/AMD Ryzen 5000-serie
ProgrammeringPython 3.10
RAM8 GB
SoftwareVisual Studio Code
Opslag256 GB

Tabel 1: Omgevingsspecificaties. Deze tabel vat de materialen samen die in de implementatie zijn gebruikt en hun specificaties, zoals programmeertalen, bibliotheken en hardwarespecificaties.

Kwalitatieve analyse
Volgens de kwalitatieve analyse van het model volgens de verschillende categorieën, zoals buiten- en binnenscènes en eenvoudige en complexe scènes, is het model iets efficiënter in het beschrijven van het beeld. B1, B2, B3 en B4 worden beschouwd als BLEU-scores. C wordt beschouwd als CIDEr, M als METEOR en R als ROUGE. Voor elke matrix waarbij B1 0,579 is, B2 0,404, B3 0,279, B4 0,191, METEOR 0,195, ROUGE 0,396 en CIDEr 0,6, wordt het resultaat weergegeven door 1, zoals geïllustreerd in Tabel 2.

MatricesMSCOCO-scores
BLEU10.579
BLEU20.404
BLEU30.279
BLEU40.191
METEOR0.195
ROUGE0.396
CIDEr0.6

Tabel 2: Experimentele resultaten. Deze tabel vat de prestaties van het voorgestelde model samen met behulp van evaluatiemetrics zoals BLEU, METEOR, ROUGE en CIDEr, en biedt een kwantitatieve beoordeling van de kwaliteit van onderschriften.

figure-results-1
Figuur 5: Experimenteel resultaat. Deze figuur toont een grafische weergave van de evaluatiemetrics en illustreert de vergelijkende prestaties van het model over verschillende meetinstrumenten. Klik hier om een grotere versie van deze figuur te bekijken.

De resultaatvergelijking wordt geïllustreerd in tabellen 3, 4 en 5. De volgende verwijzingen zijn opgenomen in Tabel 3, 3 & 4:10,11,12,13,14

MethodeB1B2B3B4
GezichtskapF [10]0.57130.36510.24070.1652
Face-Init [10]0.56630.36490.2430.1686
Gezichtskap [11]0.5890.37890.25070.1719
Face-Step [10]0.58430.37560.24780.1696
CSPDN-BiLSTM-SelfAtt [12]0.60120.39920.27030.1921
CNN+RNN+ResNet-152 (Voorgesteld)0.5790.4040.2790.191

Tabel 3: Resultaatvergelijking voor BLEU-scores. Deze tabel vergelijkt BLEU-scoreresultaten over verschillende modellen of configuraties om verbeteringen in nauwkeurigheid van bijschriftgeneratie te benadrukken.

Zoals weergegeven in tabellen 3 en 4, presteert CSPDN-BiLSTM-SelfAtt12 beter op B1 en B4, terwijl CNN+RNN+ResNet-152 beter presteert op B2 en B3. CNN+RNN+ResNet-152 is beter dan METER en CIDEr, in plaats van ROUGE. Dus beide methoden zijn gelijk in BLEU-scores, maar de voorgestelde is beter dan de andere twee metrics. Dus de algehele superioriteit in het resultaat wordt bereikt door de voorgestelde methode. Face-CapF10, Face-Init10, Face-CapL11, Face-Step10 voeren beeldonderschriften uit op basis van de FlickrFace11K-dataset. Maar de resultaten zijn relatief slecht, zelfs voor een grote dataset. Hoewel het voorgestelde model een aanzienlijk hogere CIDEr-score heeft, wordt dit verschil veroorzaakt door verschillen in de evaluatieprocedure, datasetvoorbereiding en implementatiedetails.

MethodeMETEORCIDErROUGE
GezichtskapF [10]0.17190.23040.4476
Face-Init [10]0.17170.23130.4484
Gezichtskap [11]0.17440.24720.4547
Face-Step [10]0.17450.22830.4504
CSPDN-BiLSTM-SelfAtt [12]0.19320.26170.4793
CNN+RNN+ResNet-152 (Voorgesteld)0.1950.60.396

Tabel 4: Resultaatvergelijking met betrekking tot METEOR, CIDEr en ROUGE. Deze tabel biedt een vergelijkende analyse van meerdere evaluatiemetrics om de semantische en syntactische kwaliteit van gegenereerde ondertitels te beoordelen.

MethodeB1B2B3B4METEORROUGE
Sjabloon-Uitbreiding [13]0.2380.1090.050.0220.0960.249
EfficientNetB0 [14]0.28270.13250.05880.02660.26610.3609
EfficientNetB1 [14]0.2890.14040.06420.02860.2710.3718
ResNet50 [14]0.26370.12170.04960.02070.24370.3423
MobileNetV2 [14]0.21060.0640.02150.0090.17940.2606
CNN+RNN+ResNet-152 (Voorgesteld)0.5790.4040.2790.1910.1950.396

Tabel 5: Resultaatvergelijking voor BLEU-, METEOR- en ROUGE-scores. Deze tabel presenteert een geconsolideerde vergelijking van belangrijke evaluatiemetrics om de algehele effectiviteit van het model aan te tonen.

Volgens Tabel 5 is EfficientNetB114 beter voor METEOR, maar CNN+RNN+ResNet-152 is beter voor B1-B 4 en ROUGE. Over het algemeen is het voorgestelde resultaat superieur over alle BLEU- en ROUGE-metrics vergeleken met de genoemde methoden.

BESCHIKBAARHEID GEGEVENS:
Alle ruwe gegevens en codebestanden die bij deze studie horen, zijn beschikbaar in de aanvullende bestanden.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Op het gebied van kunstmatige intelligentie is het onderschriften van afbeeldingen een moeilijke taak. Beeldonderschriften zijn onderwerp geweest van talloze studies, en scherpe of precieze ondertiteling vereist nog steeds het hoogste niveau van precisie. Veel machine learning-technieken kunnen worden gebruikt om het doel van beeldondertiteling te bereiken, en talrijke studies hebben CNN, RNN en ResNet-152 gebruikt. Echter, meer precisie en kortere verwerkingstijd zijn noodzakelijk. Het voorgestelde systeem is gebouwd met CNN als encoder, RNN als decoder, Torch Vision als bibliotheek en ResNet als primair trainingsmodel. ResNet gebruikt de skip-connection-techniek om de lagen te benutten en zo betere prestaties te bereiken dan andere conventionele modellen zoals Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2 en vele anderen: 10,11,12,13,14.

De cruciale stappen in het voorgestelde werk zijn het gebruik van een slim filter om de beelden te wissen, en vervolgens feature-extractie met alle primaire stappen. Zonder nauwkeurige feature-extractie is het niet mogelijk het doel van het model te bereiken, en als het systeem er niet in slaagt de features correct te extraheren, wordt de nauwkeurigheid van de metrische scores beïnvloed. De trainingsfase, uitgevoerd met diepgaande analyse van de featurevectoren en het aandachtsmechanisme, speelde een cruciale rol bij het decoderen van de testgegevens. Er is ook nog een cruciale stap in het werk, namelijk het bijwerken van de zang. Wanneer er nieuwe woorden ontstaan tijdens het testen van de data, worden die woorden aan het woordenboek toegevoegd om de prestaties van het model te verbeteren. Deze kritieke stappen speelden een cruciale rol bij het bereiken van een betere nauwkeurigheid, die hoger was dan die van het eerder voorgestelde model, zoals de Template Augmentation Method. Het systeem trainde een model voor de MSCOCO-benchmark en verkreeg een effectiever model voor het bijschriften van afbeeldingen.

Als de testdatagrootte toeneemt, kan het mogelijk zijn om nieuwe woorden te krijgen die gerelateerd zijn aan de afbeeldingen. Het kan ook irrelevantie veroorzaken bij het genereren van onderschriften, en kan dan worden afgehandeld via het aandachtmechanisme, dat in het model is gebruikt. De woordenschat kan worden bijgewerkt via een aandachtsmechanisme dat effectief kan zijn voor latere evaluatie. Het kan worden beschouwd als zelfstudie of uitzonderingsbehandeling. Terwijl het model wordt getraind met MSCOCO, dat duizenden afbeeldingen uit de echte wereld bevat, kunnen er zoveel objecten ontstaan die bij elke inferentie bijgewerkt moeten worden.

Een nadeel van dit werk is dat het model, vergeleken met hedendaagse datasets die voor training worden gebruikt, slecht kan presteren op veel oudere beelden, vooral zwart-wit of lage kwaliteit historische beelden, vanwege verschillen in visuele kenmerken, contrast en textuur. Als beelden een lage resolutie hebben, is het moeilijker om de precieze kenmerken te extraheren, en ResNet-152 kan in dit geval de coderingsfase verslechteren. Het presteert ook slecht op te veel oudere beelden, wat betekent dat die beelden uit de oudheid stammen vanwege slechte of beschadigde featurevectoren. Beperkingen zijn onder meer evaluatie van één dataset en het ontbreken van kruisvalidatie.

In vergelijking met conventionele benaderingen is het voorgestelde model beter omdat het de feature-extractie verbetert, waardoor de generatie van beeldonderschriften verbetert. Slimme filtering verbetert de fase van feature-extractie of -codering, wat het model beter opbouwt. ResNet-152 gebruikt ook skipverbindingen die tijd benutten tijdens training. De uitvoering is dus veel sneller dan bij andere modellen zoals EfficientNetB014. Het aandachtsmechanisme is ook een belangrijke factor die de prestaties van het model verbetert.

De techniek kan worden gebruikt in beeldopsporingssystemen, geautomatiseerde surveillance en ondersteunende technologieën voor mensen met een visuele beperking. Naarmate kunstmatige intelligentie zich snel ontwikkelt, is het verbeteren van het beeldherstelsysteem nodig, en deze techniek kan daaraan bijdragen. Met dit model kunnen slechtzienden hulp krijgen bij het zien van de wereld door deze in spraak te vertalen. Er zijn verschillende belangrijke en potentiële toepassingen van beeldonderschriften.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteurs geven aan dat zij geen concurrerende financiële belangen of persoonlijke relaties hebben die invloed hadden kunnen hebben op het werk dat in dit artikel wordt gerapporteerd.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wij erkennen de makers van de MSCOCO-datasets voor het leveren van de benchmarks die in deze studie zijn gebruikt. De auteurs verklaren dat er geen externe financiering voor deze studie is ontvangen.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
AMD Ryzen 5000 seriesAMD100-100000059WOFAMD Ryzen 5000 Series is a line of high-performance processors developed by AMD, based on the Zen 3 architecture. These processors are widely used in desktops and laptops for both general-purpose computing and demanding tasks such as data processing and machine learning workflows.
GPUNVIDIA 4.71933E+12The NVIDIA GeForce GTX is a series of graphics processing units (GPUs) developed by NVIDIA, widely used for gaming as well as general-purpose computing tasks like deep learning and image processing.
Intel Core i5IntelBX8071514400FIntel Core i5 is a mid-range processor series developed by Intel, widely used in personal computers for both general-purpose and computational tasks.
Python 3.10Python Software FoundationPEP 619Python is a high-level, interpreted programming language widely used in scientific computing, data analysis, and machine learning. It is known for its simplicity, readability, and extensive ecosystem of libraries.
PyTorchFacebook26.03-py3PyTorch is an open-source deep learning framework developed by Meta Platforms (formerly Facebook), widely used for building and training neural networks in research and industry.
Visual Studio CodeMicrosoftNoneVisual Studio Code (VS Code) is a lightweight, open-source code editor developed by Microsoft. It is widely used for software development, including machine learning and deep learning projects.
Windows 11MicrosoftKB5083631Windows 11 is an operating system developed by Microsoft, widely used for general computing as well as software development and machine learning tasks.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Image Caption GenerationDeep LearningResNet ModelSmart FilteringFeature EncodingCNN EncoderRNN DecoderObject ClassificationSemantic AnalysisMSCOCO Dataset

Related Articles