$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
De implementatie is gedaan met het hoofdmodel, namelijk ResNet-152, samen met een encoder als CNN, een decoder als RNN, en de bronnen uit de Table of Materials.
ResNet-152
ResNet wordt beschouwd als de ruggengraat voor het efficiënter extraheren van functies in het bijschrijven van afbeeldingen. ResNet leverde betere trainingsprestaties dan andere modellen, omdat het het probleem van verdwijnende gradiënt aanpakte en efficiënt oploste. Verschillende objecten kunnen in de afbeeldingen verschijnen, en het model moet hun relaties begrijpen voor betere onderschriften. Daarom kan het worden beschouwd als een hiërarchische feature-extractie. ResNet-152 kan complexe computer vision-taken uitvoeren. Het belangrijkste voordeel van dit model is het effectieve gebruik van residuele of skipverbindingen. Het is zeer effectief in het aanpakken van het probleem van verdwijnende gradiënt. Het kan complexe, robuuste functies leren om een hogere nauwkeurigheid te bereiken. ResNet-152 volgde een bottleneck-ontwerp dat de rekenkosten verlaagde en effectiever werd dan andere architecturen, zoals VGG-16. Het heeft een prominente transfer learning-backbone die geschikt is voor vooraf getrainde modellen en diverse taken zoals objectdetectie en datasegmentatie. De skip-verbinding versnelde de training en maakte het stabieler. In vergelijking met het transformer-gebaseerde model, dat een zelf-aandacht mechanisme gebruikt om sequentiële data te begrijpen, is ResNet heel anders. Een transformer-gebaseerd model vereist een grote hoeveelheid data voor een diepgaand begrip van tekstuele data, wat effectieve resultaten oplevert maar iets langzamer draait. De motivatie om voor ResNet te kiezen is de skip-verbindingen, die de uitvoering versnellen met een aanzienlijke verbetering in resultaten. Op het gebied van beeldonderschriften wordt ResNet gebruikt om de kenmerken te extraheren die het object en de actie in de afbeelding vertegenwoordigen. ResNet gebruikte een residueel netwerk dat gebruikmaakte van skip-verbindingen. Hier kan het residublok worden berekend met referentie van invoer Z als:
(5)
Waarbij Z wordt beschouwd als de invoer van het residuele blok.
is een residuele functie die batchnormalisatie, convolutionele lagen en ReLu-activatie omvat. {xi} wordt beschouwd als het leergewicht van de overeenkomstige lagen. Z definieert ook de skip connection-identiteit, die ook het probleem van nul gradiënt oplost. ResNet wordt over het algemeen gebruikt als feature extractor voor visuele feature mapping van de afbeeldingen. Hier wordt I beschouwd als de invoerafbeelding om de feature maps te representeren in een hoge visuele feature-representatie V.
(6)
Voordat features worden extraherd, moet de afbeelding vooraf worden verwerkt om de feature-extractie te verbeteren. Het wordt beschouwd als een ruwe afbeelding verzameld uit de MSCOCO-benchmark, dus de eerste stap in de preprocessing is het aanpassen van formaat en normaliseren.
(7)
(8)
Waarbij Hl de hoogte van het beeld is en Wl het gewicht van de afbeelding. Ikverander de grootte van het formaat van de afbeelding.
Om de pixelwaarde te normaliseren vanuit bereik [-1, 1] of [0, 1]
(9)
Waar μ de wordt beschouwd als de gemiddelde waarde van de pixel σ wordt beschouwd als de standaardafwijking van de referentieafbeelding. Het genormaliseerde beeld wordt nu verder verwerkt voor feature-extractie.
(10)
Waar
wordt beschouwd als de kenschapsvector. Wanneer het rij-bijschrift wordt getokeniseerd, wordt het omgezet naar het numerieke formaat.
(11)
Als het bijschrift in woorden splitst, dan
(12)
Hier speelt woordenschat een belangrijke rol, waarbij elk woord uniek wordt geïdentificeerd door gehele getallenindexering.
(13)
Waar Vc wordt beschouwd als een woordenschatfunctie; Het moet worden verzekerd dat alle reeksen een even lengte hebben; dus de maximale hoogte of ideale lengte wordt beschouwd als Lmax.
(14)
Nu worden tokens embedded als;
(15)
voor j = 1,2,3, ... .., Lmax
Waar
wordt beschouwd als een ingebedde vector met K dimensies; nu wordt de decoder gebruikt om het bijschrift te decoderen voor kandidaat-bijschriftgeneratie, dat gebaseerd is op een probabilistisch model.
(16)
Waar wj een werk is bij tijdstempel j, w1: j-1 is het gegenereerde woord bij tijdstempel j-1 en ej-1 is het ingebedde kenmerk met het vorige woord wj-1. Bij elke tijdstempel wordt het netwerk dat het volgende woord of de kans voorspelt over de woordenschat berekend.
(17)
Waarbij woutput het output gewicht is en boutput de output bias. Dus de maximale kans wordt berekend als
(18)
De maximale lengte van het kandidaat-bijschrift wordt berekend zodra het woord is ontvangen of geïdentificeerd als een speciaal token zoals en . Beam search is ook nuttig om het betere kandidaat-bijschrift te selecteren, dus de volgorde is:
(19)
(20)
Dus het gegenereerde kandidaat-bijschrift is de reeks van 
Lang kortetermijngeheugen wordt over het algemeen gebruikt bij sequentiegeneratie. LSTM gebruikt een CNN als feature extractor en genereert woorden sequentieel om betekenisvolle zinnen te creëren. LSTM berekent de vergeten poort bij elke tijdstempel T.

Waar ft wordt beschouwd als vergeten poort, σ als activatiefunctie, wf als gewicht en bf als bias,
YT wordt beschouwd als invoerkenmerkvector, HT-1 als verborgen toestand.
(22)
(23)
Jt wordt beschouwd als input,
wordt beschouwd als kandidaattoestand, wj en wc worden respectievelijk als gewicht voor input en kandidaattoestand beschouwd, bj & bc of als bias.
(24)
Ct wordt beschouwd als alle toestanden, Ct-1 wordt beschouwd als de vorige toestand.
(25)
Ot wordt beschouwd als output, wo als gewicht en bo als bias. Om de verborgen en celtoestanden te initialiseren, zijn de volgende berekeningen vereist.
(26)
(27)
Waar hi en Ci respectievelijk worden beschouwd als de verborgen en celtoestand, wh en wc gewichten zijn voor respectievelijk de verborgen en zeilceltoestand, bc en bh als bias, en k als de feature extractor. De volgorde van het bijschrift wordt als volgt berekend:
(28)
Waar T de lengte is van het gegenereerde bijschrift.
254 × 254 × 3 is het aangepaste of voorbewerkte beeld, en I wordt beschouwd als het invoerbeeld.
(29)
Waar W en b respectievelijk als gewicht en bias worden beschouwd, I als inputfuncties, en ReLU de activatiefunctie. Het is de berekening van de convolutionele laag. Nu kan de poolinglaag worden berekend als:
(30)
Na het afronden van de poollaag; De volledig verbonden laag kan worden weergegeven als:
(31)
Waarbij wf en bf respectievelijk worden beschouwd als gewicht en bias van het netwerk.
(32)
(33)
Waarbij N wordt beschouwd als het ruimtelijke gebied en d als de dimensie van het kenmerk.
(34)
(35)
Waarbij wh en bh respectievelijk worden beschouwd als gewicht en bias van de verborgen toestand, w c en bc respectievelijk als gewicht en bias van de celtoestand. Bijschrift kan worden gegenereerd als:
(36)
Encoder en decoder
Het voorgestelde systeem codeert de gegevens voor machinevertaling met behulp van een CNN. In dit geval zijn zowel de invoer als de uitgang reeksen, maar ze kunnen in lengte verschillen. Eén voor één codeert en decodeert de machine elke vector. Met een vector als uitgangspunt begint de machine met coderingen en decoderen, en blijft berekenen tot de uiteindelijke voorwaardelijke kansverdeling. Een voorbeeld is als volgt:
(37)
Dit wordt beschouwd als de kansverdeling.
Het systeem kan de gegevens coderen in de vorm van een vectorafbeelding, en deze kan later worden gedecodeerd. fcn (I) wordt beschouwd als het beeldmodel voor beeldbegrip.
(38)
(39)
(40)
S1 is de volgende iteratie van S0, en S2 is de daaropvolgende iteratie van S1. Men zou kunnen zeggen dat elke invoer afhangt van de uitvoer van de vorige laag. Beelden worden door CNN omgezet in vectoren en naar de volgende laag gestuurd, die alle vectoren doorloopt. Hier wordt een aandachtsmechanisme gebruikt om de woorden sequentieel te rangschikken tot een betekenisvolle zin nadat de RNN de vectoren in woorden heeft ontcijferd.
(41)
Waarbij T de lengte van de invoer is.
(42)
(43)
k1, k2, k3, k4, ......, kt-1 zijn verborgen decodeerstaten.

Figuur 2: Encodeer- en decodeermodel. Deze figuur toont het encoder–decoder-framework dat wordt gebruikt voor beeldonderschriften, en laat zien hoe beeldkenmerken worden gecodeerd in vectorrepresentaties en vervolgens worden gedecodeerd in sequentiële tekstuele beschrijvingen. Klik hier om een grotere versie van deze figuur te bekijken.
Procesmodel
Zie Figuur 3, dat het stroomdiagram van de trainingsmodules toont, waarbij de dataset en de grondwaarheidsonderschriften als eerste werden geladen. Nadat de data is genormaliseerd voor CNN-codering, wordt het ResNet-model geïnitialiseerd en getraind met behulp van de geëxtraheerde features. RNN en de systeemspecifieke woorden die met start- en eindmarkeringen zijn getagd, kunnen vervolgens worden gebruikt om het bijschrift te decoderen. Het systeem voltooit de extractie als het laatste woord wordt gevonden, en N is het totale aantal woorden in het kandidaat-bijschrift.

Figuur 3: Stroomdiagram van het trainingsmodel. Deze figuur geeft een stapsgewijs beeld van het proces dat gepaard gaat met het trainen van het model, inclusief datapreprocessing, feature-extractie, modelleren en optimalisatie. Klik hier om een grotere versie van deze figuur te bekijken.
Het stroomdiagram van het testmodel is weergegeven in Figuur 4, waar het systeem eerst de encoder- en decodermodellen laadt, en vervolgens het ResNet-model en de invoergegevens laadt voor het extraheren van bijschriften. Als er geen decodeerfouten zijn gemaakt, kan er van het eerste tot het laatste woord worden gevolgd. Nadat het laatste woord is bereikt, kunnen ontcijferde woorden worden verkregen en kan een bijschrift worden gemaakt door een aandachtsmechanisme te gebruiken om de woorden op een betekenisvolle manier achter elkaar te ordenen. De bundelgrootte van het trainingsmodel is vijf met een maximale lengte van 20, en de batchgrootte is 128 met 20 epochs.

Figuur 4: Stroomdiagram van het testmodel. Deze figuur toont de testworkflow en laat zien hoe invoerbeelden worden verwerkt door het getrainde model om onderschriften te genereren en prestaties te evalueren. Klik hier om een grotere versie van deze figuur te bekijken.
ResNet-152 beeldondertitelingsalgoritme
Initialiseer de invoer- en uitvoerparameters, en hier wordt de invoer genomen als de verzameling MSCOCO-afbeeldingen aangezien I = (i1, i2, i3, ....... iN) samen met annotatie J = (j1, j2, j3, ......... jN) en de output wordt berekend als onderschriften. In de allereerste stap is invoer vereist, waarna de beelden vooraf worden verwerkt door de beeldverhouding te vergroten als
(44)
Waarbij w en h de oorspronkelijke breedte en hoogte van het beeld zijn, wnew en hnew de aangepaste afmetingen, wordt Ts beschouwd als een vooraf gedefinieerde doelgrootte (Ts = 224), max(w, h) definieert de grootste dimensie, die is geschaald om de beeldverhouding te behouden.
Na feature-extractie is het vereist om het identiteitsblok als volgt te declareren
(45)
Initialiseer vervolgens de parameters zoals batchgrootte, aantal epochs, Wverborgen als gewicht voor verborgen lagen, Woutput als uitgangslaag, en B-hoogte enB-bias als bias. Zodra de initialisatie is voltooid, is het nodig om de output van de convolutionele laag te berekenen.
(46)
Het kan worden beschouwd als een normaal ReLU-blok als bl gelijk is aan 1. Maar als bl niet gelijk is aan 1 of gelijk aan 0, dan zou het dat zijn;
(47)
Bereken vervolgens de overlevingshaalbaarheid door
(48)
Waarbij FK wordt beschouwd als de overlevingshaalbaarheid van het systeem, en K wordt genomen als een representatie van het totale aantal blokken in het model. Bereken vervolgens de kansverdeling
(49)
Zodra de kansverdeling is berekend, bouwt het het model om deze te benaderen en de data te decoderen met behulp van de gegevens.
/9500
k1, k2, k3, k4, ......, kt-1 zijn verborgen decodeerstaten.
Bij het openen van het model is het vereist om aandachtsmechanismen toe te passen voor het genereren van onderschriften, waarbij het kandidaat-bijschrift wordt geëvalueerd aan de hand van het referentieonderschrift; de uiteindelijke metrics kunnen vervolgens worden geëvalueerd met behulp van BLEU, METEOR, CIDEr en ROUGE.