$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Die Implementierung erfolgte mit dem Hauptmodell, dem ResNet-152, zusammen mit einem Encoder als CNN, einem Decoder als RNN und den Ressourcen aus der Materialtabelle.
ResNet-152
ResNet gilt als das Rückgrat für die effizientere Extraktion von Features bei der Bildunterschrift. ResNet bot eine bessere Trainingsleistung als andere Modelle, da es das Problem des verschwindenden Gradienten löste und effizient löste. Verschiedene Objekte können in den Bildern erscheinen, und das Modell muss ihre Beziehungen verstehen, um eine bessere Bildunterschrift zu ermöglichen. Deshalb kann es als hierarchische Merkmalsextraktion betrachtet werden. ResNet-152 kann komplexe Computer-Vision-Aufgaben bewältigen. Der entscheidende Vorteil dieses Modells ist der effektive Einsatz von Rest- oder Sprungverbindungen. Es ist äußerst wirksam, um das Problem des verschwindenden Gradienten zu lösen. Es kann komplexe, robuste Funktionen lernen, um eine höhere Genauigkeit zu erreichen. ResNet-152 folgte einem Flaschenhals-Design, das die Rechenkosten senkte und es effektiver machte als andere Architekturen wie VGG-16. Es verfügt über ein herausragendes Transfer-Learning-Backbone, das für vortrainierte Modelle und vielfältige Aufgaben wie Objekterkennung und Datensegmentierung geeignet ist. Die Überspring-Verbindung beschleunigte das Training und machte es stabiler. Im Vergleich zum transformatorbasierten Modell, das einen Selbstaufmerksamkeitsmechanismus zur Erfassung sequentieller Daten verwendet, unterscheidet sich ResNet deutlich. Ein transformatorbasiertes Modell erfordert eine große Datenmenge für ein tiefes Verständnis der Textdaten, was effektive Ergebnisse liefert, aber etwas langsamer läuft. Die Motivation für die Wahl von ResNet sind seine Skip-Verbindungen, die die Ausführung beschleunigen und die Ergebnisse deutlich verbessern. Im Bereich der Bildunterschriften wird ResNet verwendet, um die Features zu extrahieren, die das Objekt und die im Bild ausgeführte Aktion darstellen. ResNet verwendete ein Residualnetzwerk, das Skip-Verbindungen nutzte. Hier kann der Restblock mit Bezug auf Eingabe Z berechnet werden als:
(5)
Dabei gilt Z als Eingang des Restblocks.
ist eine Restfunktion, die Batch-Normalisierung, Faltungsschichten und ReLu-Aktivierung umfasst. {xi} gilt als das Lerngewicht der entsprechenden Schichten. Z definiert auch die Skip-Verbindungsidentität, die ebenfalls das Problem des verschwindenden Gradienten löst. ResNet wird allgemein als Feature-Extractor für visuelle Feature-Mapping aus den Bildern verwendet. Hier gilt I als das Eingabebild, um die Merkmalsabbildungen in eine hochvisuelle Merkmalsrepräsentation V darzustellen.
(6)
Vor der Extraktion von Features muss das Bild vorbearbeitet werden, um die Merkmalsextraktion zu verbessern. Es gilt als ein Rohbild, das aus dem MSCOCO-Benchmark stammt, daher besteht der erste Schritt in der Vorverarbeitung darin, es zu skalieren und zu normalisieren.
(7)
(8)
Dabei ist Hl die Bildhöhe und Wl das Gewicht des Bildes. IResize ist das vergrößerte Bild.
Um den Pixelwert aus dem Bereich [-1, 1] oder [0, 1] zu normalisieren,
(9)
Wobei μ als Mittelwert des Pixels betrachtet wird , wird σ als Standardabweichung des referenzierten Bildes betrachtet. Das normalisierte Bild wird nun für die Feature-Extraktion weiterverarbeitet.
(10)
Wobei
dies als Merkmalsvektor betrachtet wird. Wenn die Zeilenunterschrift tokenisiert wird, wird sie in das numerische Format umgewandelt.
(11)
Wenn sich die Bildunterschrift in Worte aufteilt, dann
(12)
Hier spielt der Wortschatz eine wichtige Rolle, wobei jedes Wort eindeutig durch ganzzahlbasierte Indexierung identifiziert wird.
(13)
wobei Vc als Vokabularfunktion betrachtet wird; Es muss sichergestellt werden, dass alle Sequenzen eine gleichmäßige Länge haben; daher wird die maximale Höhe oder ideale Länge als LMax betrachtet.
(14)
Jetzt werden Token eingebettet als;
(15)
für j = 1,2,3, ... .., Lmax
wobei
als eingebetteter Vektor mit K Dimensionen betrachtet wird; nun soll der Decoder verwendet werden, um die Bildunterschrift für die Kandidat-Bildunterschriftengenerierung zu dekodieren, die auf einem probabilistischen Modell basiert.
(16)
Wobei wj ein Werk mit Zeitstempel j ist, w1: j-1 das generierte Wort am Zeitstempel j-1 und ej-1 das eingebettete Merkmal mit dem vorherigen Wort wj-1 darstellt. Bei jedem Zeitstempel wird das Netzwerk, das das nächste kommende Wort oder die nächste Wahrscheinlichkeit vorhersagt, über den Wortschatz berechnet.
(17)
Dabei ist wder Ausgang das Ausgabegewicht und bder Ausgang die Ausgangsvorspannung. Die maximale Wahrscheinlichkeit wird also berechnet wie folgt:
(18)
Die maximale Länge der Kandidatenunterschrift wird berechnet, sobald das Wort empfangen oder als spezielles Token wie und identifiziert wurde. Die Strahlsuche ist auch nützlich, um die bessere Kandidatenunterschrift auszuwählen, daher lautet die Reihenfolge:
(19)
(20)
Die generierte Kandidatenunterschrift ist also die Folge von 
Das Langzeitgedächtnis wird im Allgemeinen zur Sequenzgenerierung verwendet. LSTM verwendet ein CNN als Feature-Extractor und erzeugt Wörter nacheinander, um sinnvolle Sätze zu erzeugen. LSTM berechnet das Vergessengatter zu jedem Zeitstempel T.

Dabei gilt ft als Vergessen-Gatter, σ als Aktivierungsfunktion, wf als Gewicht und bf als Verzerrung,
YT wird als Eingabemerkmalvektor betrachtet, HT-1 als verborgener Zustand.
(22)
(23)
Jt wird als Eingabe betrachtet,
als Kandidatenzustand, wj und wc als Gewicht für Eingabe bzw. Kandidatenzustand, bj & bc oder als Verzerrung betrachtet.
(24)
Ct gilt als All-State, Ct-1 als vorheriger Zustand.
(25)
Ot wird als Output betrachtet, wo als Gewicht und bo als Bias. Um die versteckten und zellartigen Zustände zu initialisieren, sind folgende Berechnungen erforderlich.
(26)
(27)
Dabei werden hi und Ci als verborgener und Zellzustand betrachtet, wh und wc sind Gewichte für den versteckten bzw. Segelzellzustand, bc und bh als Bias und k als Merkmalsextraktor. Die Reihenfolge der Bildunterschrift wird berechnet wie folgt:
(28)
Dabei ist T die Länge der generierten Bildunterschrift.
254 × 254 × 3 ist das neu dimensionierte oder vorbearbeitete Bild, und I gilt als Eingabebild.
(29)
Während W und b als Gewicht bzw. Bias betrachtet werden, I als Eingabemerkmale und ReLU als Aktivierungsfunktion. Es handelt sich um die Berechnung der Faltungsschicht. Nun kann die Pooling-Schicht wie folgt berechnet werden:
(30)
Nachdem die Pooling-Schicht abgeschlossen war; Die vollständig verbundene Schicht kann wie folgt abgebildet werden:
(31)
wobei wf und bf als Gewicht bzw. Bias des Netzwerks betrachtet werden.
(32)
(33)
Dabei wird N als räumlicher Bereich betrachtet und d als Dimension des Merkmals.
(34)
(35)
Dabei werden wh und bh als Gewicht und Bias des verborgenen Zustands betrachtet, wc und bc als Gewicht bzw. Bias des Zellzustands. Die Bildunterschrift kann wie folgt generiert werden:
(36)
Encoder und Decoder
Das vorgeschlagene System kodiert die Daten für die maschinelle Übersetzung mittels eines CNN. In diesem Fall sind Ein- und Ausgabe beide Sequenzen, aber sie können sich in ihrer Länge unterscheiden. Jeder Vektor kodiert und dekodiert die Maschine einzeln. Mit einem Vektor als Ausgangspunkt beginnt die Maschine mit der Kodierung und Dekodierung und rechnet weiter, bis zur endgültigen bedingten Wahrscheinlichkeitsverteilung. Ein Beispiel ist wie folgt:
(37)
Dies wird als Wahrscheinlichkeitsverteilung betrachtet.
Das System kann die Daten in Form eines Vektorbilds kodieren, und sie können später dekodiert werden. fcn (I) gilt als Bildmodell für das Bildverstehen.
(38)
(39)
(40)
S1 ist die folgende Iteration von S0, und S2 ist die anschließende Iteration von S1. Man könnte sagen, dass jeder Eingang vom Ausgang der vorherigen Schicht abhängt. Die Bilder werden von CNN in Vektoren umgewandelt und an die folgende Schicht gesendet, die alle Vektoren durchläuft. Hier wird ein Aufmerksamkeitsmechanismus verwendet, um die Wörter nach der Entschlüsselung der Vektoren in Wörter sequenziell zu einem sinnvollen Satz zu ordnen.
(41)
Wobei T die Länge des Eingangs ist.
(42)
(43)
k1, k2, k3, k4, ......, kt-1 sind versteckte Dekodierzustände.

Abbildung 2: Kodierungs- und Dekodierungsmodell. Diese Abbildung zeigt das Encoder-Decoder-Framework, das für Bildunterschriften verwendet wird, und zeigt, wie Bildmerkmale in Vektordarstellungen kodiert und anschließend in sequentielle Textbeschreibungen dekodiert werden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
Prozessmodell
Siehe Abbildung 3, das das Flussdiagramm der Trainingsmodule zeigt, in dem der Datensatz und seine Ground-Truth-Unterschriften zuerst geladen wurden. Nachdem die Daten für die CNN-Codierung normalisiert wurden, wird das ResNet-Modell initialisiert und mit den extrahierten Features trainiert. RNN und die systemspezifischen Wörter, die mit Start- und Endmarkern markiert sind, können dann zur Entschlüsselung der Bildunterschrift verwendet werden. Das System schließt die Extraktion ab, wenn das letzte Wort gefunden wird, und N ist die Gesamtzahl der Wörter in der Kandidatenunterschrift.

Abbildung 3: Flussdiagramm des Trainingsmodells. Diese Abbildung beschreibt den Schritt-für-Schritt-Prozess beim Modelltraining, einschließlich Datenvorverarbeitung, Feature-Extraktion, Modelllernen und Optimierung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
Das Flussdiagramm des Testmodells ist in Abbildung 4 dargestellt, wo das System zunächst den Encoder- und Decoder-Modellen lädt und dann das ResNet-Modell sowie die Eingabedaten zur Bildunterschriftsextraktion lädt. Wenn keine Dekodierungsfehler vorliegen, kann man vom ersten bis zum letzten Wort eine Schlussfolgerung anstellen. Nachdem das letzte Wort erreicht ist, können entschlüsselte Wörter erhalten werden, und eine Bildunterschrift kann durch einen Aufmerksamkeitsmechanismus erstellt werden, um die Wörter nacheinander sinnvoll zu ordnen. Die Balkengröße des Trainingsmodells beträgt fünf mit einer maximalen Länge von 20, und die Chargengröße beträgt 128 mit 20 Epochen.

Abbildung 4: Flussdiagramm des Testmodells. Diese Abbildung zeigt den Testablauf und zeigt, wie Eingabebilder durch das trainierte Modell verarbeitet werden, um Bildunterschriften zu erzeugen und die Leistung zu bewerten. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
ResNet-152 Bilduntertitelungsalgorithmus
Initialisieren Sie die Eingabe- und Ausgabeparameter, und hier wird die Eingabe als Menge der MSCOCO-Bilder genommen, da I = (i1, i2, i3, ....... iN) zusammen mit Annotation J = (j1, j2, j3, ......... jN) und die Ausgabe wird als Bildunterschriften berechnet. Im allerersten Schritt ist eine Eingabe erforderlich, dann werden die Bilder vorverarbeitet, indem das Seitenverhältnis angepasst wird als
(44)
Wobei w und h die ursprüngliche Bildbreite und -höhe sind, wnew und hnew die neu dimensionierten Maße, gilt Ts als vordefinierte Zielgröße (Ts = 224), max(w, h) definiert die größte Dimension, die skaliert wurde, um das Seitenverhältnis beizubehalten.
Nach der Feature-Extraktion muss der Identitätsblock als
(45)
Dann initialisiere die Parameter wie Batchgröße, Anzahl der Epochen, Wals verstecktes Gewicht für versteckte Schichten, Wals Ausgabe für die Ausgabeschicht und B-Höhe sowieB-Bias als Bias. Sobald die Initialisierung abgeschlossen ist, muss die Ausgabe der Faltungsschicht berechnet werden.
(46)
Er kann als normaler ReLU-Block betrachtet werden, wenn bl äquivalent zu 1 ist. Aber wenn bl nicht gleich 1 oder gleich 0 ist, dann wäre es;
(47)
Berechnen Sie dann die Überlebensmachbarkeit durch
(48)
Dabei gilt FK als Überlebensmachbarkeit des Systems und K als Gesamtanzahl der Blöcke im Modell. Berechnen Sie dann die Wahrscheinlichkeitsverteilung
(49)
Sobald die Wahrscheinlichkeitsverteilung berechnet wurde, wird das Modell gebaut, um darauf zuzugreifen und die Daten zu dekodieren.
/9500
k1, k2, k3, k4, ......, kt-1 sind versteckte Dekodierzustände.
Beim Zugriff auf das Modell müssen Aufmerksamkeitsmechanismen für die Bildunterschriftserstellung angewendet werden, die die Kandidatenunterschrift mit der Referenzunterschrift vergleichen; Endkennzahlen können dann mit BLEU, METEOR, CIDEr und ROUGE ausgewertet werden.