Bildunterschriftengenerierung mit Deep-Learning-Ansätzen

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

Bildunterschriftengenerierung mit Deep-Learning-Ansätzen

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dieses Protokoll verwendet CNNs, RNNs und ResNets für Bildunterschriften, wobei Beschreibungen der Aktivitäten, Menschen, Objekte und anderer Elemente der Bilder extrahiert werden. Sie wurde mit BLEU-, CIDEr-, METEOR- und ROUGE-Metrikwerten gerechtfertigt.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bildunterschriftengenerierung ist ein Versuch, eine aussagekräftige Textbeschreibung zu liefern, die ein Bild enthält. Die extrahierten Informationen sind relevant für die in den Bildern vorhandenen Aktivitäten. ResNet (Residual Network) ist bekannt für seine Fähigkeit, Bilder zu klassifizieren, da es tiefe hierarchische Darstellungen entwickelt hat. Ziel dieses Artikels ist es, ResNet mit verschiedenen intelligenten Filtern zu nutzen, um Bilder tiefer zu klassifizieren und so die Erstellung echter und aussagekräftiger Beschreibungen zu ermöglichen, die in Bezug auf die Referenzunterschriften sehr präzise sind. Hier verwendet die Arbeit eine intelligente Filtertechnik zur Verbesserung von Bildern, ein CNN zur Kodierung von Merkmalen, Modelltraining und anschließend ein RNN (Recurrent Neural Network) zur Entschlüsselung der Merkmale. ResNet ist ein sehr effektives Modell für Computer-Vision-Aufgaben, insbesondere für Objektklassifikation und semantische Analyse. ResNet ist bekannt für Residualverbindungen, die auch als überspringende Verbindungen bekannt sind und das Problem des verschwindenden Gradienten lösen, ein entscheidendes Problem im Deep Learning. Hier wird der MSCOCO (Microsoft Common Object in Context) Benchmark verwendet, um das Modell zu trainieren, das ein großer Datensatz mit Referenzannotationen ist, die für verschiedene Computer-Vision-Aufgaben nützlich sind. ResNet hilft, die Verallgemeinerungsfähigkeit zu verbessern, was besonders für verschiedene Bilder nützlich ist. Nach den erhaltenen Ergebnissen sind die BLUE-Werte B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEOR: 0,195; ROUGE: 0,396; und CIDEr: 0,6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

In den Bereichen Computer Vision und natürliche Sprachverarbeitung ist Bildunterschrift eine entscheidende Aufgabe, die eine Beschreibung des Bildes und der dargestellten Aktionen extrahiert. Das Ziel des Modells ist es, Bilder zu verstehen und die Informationen in sinnvolle Sätze oder Bildunterschriften zu übersetzen.¹. Das gesamte Verfahren besteht aus zwei bedeutenden Phasen: Die erste ist die Merkmalsextraktion, bei der ein CNN-Modell verwendet wird; die zweite ist die Bildbeschreibung mit einem RNN, und dazwischen wird ResNet für semantische Analyse, Sequenzgenerierung und einen Aufmerksamkeitsmechanismus verwendet. ResNet unterscheidet sich stark von vorlagenbasierten Methoden oder DenseNet-basierten Modulen, da es Skip-Verbindungen verwendet, die die Ausführungszeit verkürzen und gleichzeitig die Leistung verbessern. Es gibt zahlreiche Anwendungen der Bildunterschriften, darunter die Unterstützung sehbehinderter Menschen, die Förderung sozialer Medienplattformen, die Optimierung bildbasierter Suchmaschinen, bildbasierte KI (künstliche Intelligenz) und vieles^mehr.

In der Computer Vision ist Szenenerkennung der Prozess, den allgemeinen Kontext oder die Umgebung des Bildes zu identifizieren und zu klassifizieren, wie zum Beispiel einen Strand, eine Stadt, einen Wald oder ein Büro. Im Gegensatz zur Objekterkennung, die sich auf einzelne Objekte konzentriert, berücksichtigt die Szenenerkennung Texturen, räumliche Anordnungen und Objektbeziehungen, um den größeren Kontext zu verstehen. Es verwendet CNNs und Vision Transformers, Deep-Learning-Modelle, die auf großen Datensätzen wie Places365 und ImageNet trainiert werden. Anwendungen umfassen Sicherheitsüberwachung, erweiterte und virtuelle Realität (AR und VR) für immersive Erlebnisse, Robotik für Umweltbewusstsein und autonome Fahrzeuge für die Navigation. Trotz Fortschritte machen Probleme wie wechselnde Blickwinkel, Okklusionen und veränderte Lichtveränderungen die Szenenerkennung zu einem heißen Thema in der Forschung an Computer Vision und künstlicher Intelligenz. Ein weiteres grundlegendes Problem im Computer Vision ist die Szenenerkennung.

EnsCaption, ein duales generatives adversariales Netzwerkmodell, wurde vorgeschlagen, um eine Generation–Retrieval-Ensemble-Technik³ zu verbessern. Dieses Layout ermöglicht harmonische, auf Fortpflanzung basierende Bildunterschriften, die Bildunterschriften mit den bestehenden Zielen generieren. Während die abrufbasierte Technik ein positions- oder bewertungsbasiertes Modell verwendet, um das beste Modell zur präziseren Extraktion von Informationen als die anderen in der bildbasierten Abfrage auszuwählen. Eine Abbildung von Bildern auf einen "Bedeutungsraum" wurde mithilfe visueller Komponenten wie Objekte, Aktivitäten und Szenen eingeführt, die dann mit entsprechenden verbalen Vorlagen⁴ ausgerichtet wurden. Anhand der in den Bildern gefundenen Korrelationen und Qualitäten konstruiert der Ansatz Phrasen. Sätze drücken Informationen auf reichhaltige, komprimierte und subtile Weise aus. Die Vorlagenbasierte Bildunterschriftengenerierung wurde durch die Einbeziehung von gesundem Menschenverstand zur Verbesserung des semantischen Verständnisses^{verbessert 5}. Diese Technik erweiterte die Reichweite der Vorlage über direkte Bildeigenschaften hinaus und umfasste abgeleitete Assoziationen. Diese Arbeit verwendet einen bestehenden Objekterkennungsdatensatz, um für jede annotierte Kategorie 16.000 gesunden Menschenverstand-Anweisungen zu extrahieren. Zusätzlich wurde mit WordNet eine Verallgemeinerung erreicht, wodurch eine große Anzahl von Fakten über bisher unbekannte Objekte^{induziert werden konnte 6}. Bietet eine Übersicht über eine organisierte Taxonomie von Deep-Learning-Techniken zur Bildunterschrift, einschließlich Themen wie Aufmerksamkeitsmechanismen, Verstärkungslerntaktiken und Encoder-Decoder-Frameworks. Neben der Behandlung von Themen wie Objekthalluzinationen und kontextueller Verständnis untersucht es auch häufig verwendete Datensätze und Bewertungskriterien. Die Autoren weisen auf Bereiche für weitere Studien hin, wie etwa die Verbesserung der Seh-Sprach-Vortrainingstechniken und die Reduzierung von Datensatz-Verzerrungen. Ein semantischer Analyseansatz auf Basis von konvolutionellen neuronalen Netzen und rekurrenten neuronalen Netzen wurde für Bilduntertitelungsaufgaben⁷ untersucht. Bilduntertitelung ist eine der bekanntesten Anwendungen und ermöglicht es Computern, stimmungsvolle Phrasen zu erzeugen, die ein Bild einkapseln. Um hochrangige, bedeutende semantische Beschreibungen zu liefern, umfasst dieses Verfahren mehr als nur die Identifikation von Objekten und Szenen; Es beinhaltet auch die Untersuchung ihrer Zustände, Merkmale und Wechselwirkungen. Trotz der anhärenten Komplexität und Schwierigkeit der Bildunterschriften haben Wissenschaftler in diesem Bereich beeindruckende Fortschritte erzielt. Die drei wichtigsten in dieser Studie behandelten Deep-Neural-Netzwerk-basierten Bilduntertitelungstechniken sind CNN-RNN-basierte, CNN-CNN-basierte und Reinforcement-Learning-Frameworks. Ein durchgängiges, trainierbares Modell für Bilduntertitel wurde eingeführt, das Computer Vision und natürliche Sprachverarbeitung integriert, um kohärente Beschreibungen von Bildern^{zu erzeugen 8}. Um eine Bildunterschrift zu erstellen, verwendet es ein Encoder-Decoder-Framework, bei dem ein LSTM ein Bild nach einer vortrainierten CNN in einen Merkmalsvektor kodiert. Trotz seiner Schwächen, darunter Schwierigkeiten mit komplexen Landschaften, ist der Beitrag des Aufsatzes zu Seh- und Sprachaufgaben dennoch grundlegend⁹.

ResNet ist das konvolutionelle neuronale Netzwerk (CNN), das im Bilduntertitelungsmodell der vorgeschlagenen Arbeit verwendet wird, um reichhaltige visuelle Informationen aus Eingabebildern zu extrahieren. ResNet dient als Encoder, um einen Merkmalvektor zu erzeugen, der das Bild repräsentiert und üblicherweise in einer Encoder-Decoder-Architektur verwendet wird. Der Decoder, der wortweise beschreibende Bildunterschriften erzeugt, erhält diese Funktionen und wird oft mit einem rekurrenten neuronalen Netzwerk (RNN) wie LSTM oder GRU implementiert. Ein Aufmerksamkeitsmechanismus kann hinzugefügt werden, um die Leistung zu verbessern, indem der Decoder beim Erzeugen jedes Wortes auf bestimmte Bildbereiche fokussieren kann. Um die Genauigkeit der Bildunterschriften zu maximieren, wird das Modell End-to-End mit einer Verlustfunktion wie Cross-Entropy und einem Datensatz wie COCO trainiert. Transfer Learning und ResNet-Feinabstimmung können die Feature-Extraktion verbessern, das Modell weiter stärken und es ermöglichen, hochwertige, kontextuell passende Bildunterschriften über eine breite Palette von Bildern zu erstellen. Beim Bilduntertiteln wird ResNet oft anderen Modellen vorgezogen, da es das Problem des verschwindenden Gradienten, ein häufiges Problem in tiefen neuronalen Netzen, effektiv angeht. Dies wird durch neuartige Residuallernansätze ermöglicht, die deutlich tiefere Netzwerke trainieren, ohne dabei Leistung zu beeinträchtigen, indem sie Skip-Verbindungen nutzen, um den Gradientenfluss während der Backpropagation zu erleichtern. Das mehrschichtige Perzeptron, ein vollständig verbundenes Vorwärts-neuronales Netzwerk, ist mit der trainierbaren Schicht verknüpft. Das RNN dekodiert dann die Unterschriften mit der Softmax-Schicht und erzeugt so Kandidatenunterschriften. Die Aktivierungsfunktion ist f(x), die Vorwärtsidentitätsfunktion ist f(x) + x, und x wird als Identität betrachtet, wie in Abbildung 1 dargestellt. In diesem Fall verwendet das System Residualblöcke, um das Modell während des Trainings zu kalibrieren, und seine Eingaben passieren sowohl Gewichtsverbindungen als auch Skip-Verbindungen, auch als Identitätsabkürzungen bezeichnet.

Abbildung 1: Restverbindungsnetz. Diese Abbildung veranschaulicht die Architektur eines Restnetzwerks und hebt Skip-Verbindungen hervor, die den Gradientenfluss verbessern und verschwindende Gradienten während des Tiefennetztrainings mindern. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Angenommen, P_l ist die Ausgabe; L ist der Nr. von Restblöcken; ReLU soll ein gewöhnlicher Block sein, wenn er nahe an 1 liegt, aber wenn er nicht gleich 1 ist, kann er berechnet werden als:

Gleichung 1 (1)

Hier ist b die Zufallsvariable, und k die Abbildung der Abbildungsfunktion.

Gleichung 2 (2)

Hier wird s_l als Überlebenswahrscheinlichkeit für das vorgeschlagene System betrachtet;

Gleichung 3 (3)

Die daraus resultierende Regel für die Überlebenswahrscheinlichkeit ist:

Gleichung 4 (4)

Wo S_L sowohl die Überlebenswahrscheinlichkeit haben soll als auch L die Gesamtzahl von Null. von Blöcken.

Bildunterschriften sind eine anspruchsvolle Aufgabe, die natürliche Sprachverarbeitung und Computer Vision kombiniert, um beschreibende Textunterschriften für Bilder zu erstellen. Dazu muss man den visuellen Inhalt eines Bildes verstehen und interpretieren und ihn in kohärente Sätze im Kontext übersetzen. In diesem Bereich ist es entscheidend, umfangreiche und vielfältige Datensätze für die Modellevaluation und -ausbildung zu besitzen. Diese Datensätze bieten eine große Vielfalt an Bildern und zugehörigen Annotationen, die entscheidend für die Entwicklung und das Testen von Bildunterschriften-Algorithmen sind. Die am häufigsten verwendeten Datensätze sind MSCOCO und Flickr30k, die Millionen von Bildern enthalten und verschiedene Herausforderungen in der Bildverarbeitung darstellen. MSCOCO ist viel größer als Flickr30k11. Der MS COCO-Datensatz wurde in folgende Sätze aufgeteilt: 82.783 Bilder für Training, 40.504 für Validierung und 40.775 für Tests.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Implementierung erfolgte mit dem Hauptmodell, dem ResNet-152, zusammen mit einem Encoder als CNN, einem Decoder als RNN und den Ressourcen aus der Materialtabelle.

ResNet-152
ResNet gilt als das Rückgrat für die effizientere Extraktion von Features bei der Bildunterschrift. ResNet bot eine bessere Trainingsleistung als andere Modelle, da es das Problem des verschwindenden Gradienten löste und effizient löste. Verschiedene Objekte können in den Bildern erscheinen, und das Modell muss ihre Beziehungen verstehen, um eine bessere Bildunterschrift zu ermöglichen. Deshalb kann es als hierarchische Merkmalsextraktion betrachtet werden. ResNet-152 kann komplexe Computer-Vision-Aufgaben bewältigen. Der entscheidende Vorteil dieses Modells ist der effektive Einsatz von Rest- oder Sprungverbindungen. Es ist äußerst wirksam, um das Problem des verschwindenden Gradienten zu lösen. Es kann komplexe, robuste Funktionen lernen, um eine höhere Genauigkeit zu erreichen. ResNet-152 folgte einem Flaschenhals-Design, das die Rechenkosten senkte und es effektiver machte als andere Architekturen wie VGG-16. Es verfügt über ein herausragendes Transfer-Learning-Backbone, das für vortrainierte Modelle und vielfältige Aufgaben wie Objekterkennung und Datensegmentierung geeignet ist. Die Überspring-Verbindung beschleunigte das Training und machte es stabiler. Im Vergleich zum transformatorbasierten Modell, das einen Selbstaufmerksamkeitsmechanismus zur Erfassung sequentieller Daten verwendet, unterscheidet sich ResNet deutlich. Ein transformatorbasiertes Modell erfordert eine große Datenmenge für ein tiefes Verständnis der Textdaten, was effektive Ergebnisse liefert, aber etwas langsamer läuft. Die Motivation für die Wahl von ResNet sind seine Skip-Verbindungen, die die Ausführung beschleunigen und die Ergebnisse deutlich verbessern. Im Bereich der Bildunterschriften wird ResNet verwendet, um die Features zu extrahieren, die das Objekt und die im Bild ausgeführte Aktion darstellen. ResNet verwendete ein Residualnetzwerk, das Skip-Verbindungen nutzte. Hier kann der Restblock mit Bezug auf Eingabe Z berechnet werden als:

Gleichung 5 (5)

Dabei gilt Z als Eingang des Restblocks.
Gleichung 6 ist eine Restfunktion, die Batch-Normalisierung, Faltungsschichten und ReLu-Aktivierung umfasst. {x_i} gilt als das Lerngewicht der entsprechenden Schichten. Z definiert auch die Skip-Verbindungsidentität, die ebenfalls das Problem des verschwindenden Gradienten löst. ResNet wird allgemein als Feature-Extractor für visuelle Feature-Mapping aus den Bildern verwendet. Hier gilt I als das Eingabebild, um die Merkmalsabbildungen in eine hochvisuelle Merkmalsrepräsentation V darzustellen.

Gleichung 8 (6)

Vor der Extraktion von Features muss das Bild vorbearbeitet werden, um die Merkmalsextraktion zu verbessern. Es gilt als ein Rohbild, das aus dem MSCOCO-Benchmark stammt, daher besteht der erste Schritt in der Vorverarbeitung darin, es zu skalieren und zu normalisieren.

Gleichung 9 (7)

Gleichung 10 (8)

Dabei ist H^ldie Bildhöhe und W^l das Gewicht des Bildes. I_Resize ist das vergrößerte Bild.

Um den Pixelwert aus dem Bereich [-1, 1] oder [0, 1] zu normalisieren,

Gleichung 15 (9)

Wobei μ als Mittelwert des Pixels betrachtet wird , wird σ als Standardabweichung des referenzierten Bildes betrachtet. Das normalisierte Bild wird nun für die Feature-Extraktion weiterverarbeitet.

Gleichung 18 (10)

Wobei Gleichung 19 dies als Merkmalsvektor betrachtet wird. Wenn die Zeilenunterschrift tokenisiert wird, wird sie in das numerische Format umgewandelt.

Gleichung 20 (11)

Wenn sich die Bildunterschrift in Worte aufteilt, dann

Gleichung 21 (12)

Hier spielt der Wortschatz eine wichtige Rolle, wobei jedes Wort eindeutig durch ganzzahlbasierte Indexierung identifiziert wird.

Gleichung 22 (13)

wobei V_c als Vokabularfunktion betrachtet wird; Es muss sichergestellt werden, dass alle Sequenzen eine gleichmäßige Länge haben; daher wird die maximale Höhe oder ideale Länge als L_Max betrachtet.

Gleichung 25 (14)

Jetzt werden Token eingebettet als;

Gleichung 26 (15)

für j = 1,2,3, ... .., L_max

wobei Gleichung 28 als eingebetteter Vektor mit K Dimensionen betrachtet wird; nun soll der Decoder verwendet werden, um die Bildunterschrift für die Kandidat-Bildunterschriftengenerierung zu dekodieren, die auf einem probabilistischen Modell basiert.

Gleichung 29 (16)

Wobei w_j ein Werk mit Zeitstempel j ist, w_{1: j-1} das generierte Wort am Zeitstempel j-1 und e_j-1 das eingebettete Merkmal mit dem vorherigen Wort wj-1 darstellt. Bei jedem Zeitstempel wird das Netzwerk, das das nächste kommende Wort oder die nächste Wahrscheinlichkeit vorhersagt, über den Wortschatz berechnet.

Gleichung 35 (17)

Dabei ist w_{der Ausgang} das Ausgabegewicht und b_{der Ausgang} die Ausgangsvorspannung. Die maximale Wahrscheinlichkeit wird also berechnet wie folgt:

Gleichung 38 (18)

Die maximale Länge der Kandidatenunterschrift wird berechnet, sobald das Wort empfangen oder als spezielles Token wie und identifiziert wurde. Die Strahlsuche ist auch nützlich, um die bessere Kandidatenunterschrift auszuwählen, daher lautet die Reihenfolge:

Gleichung 39 (19)

Gleichung 40 (20)

Die generierte Kandidatenunterschrift ist also die Folge von Gleichung 41

Das Langzeitgedächtnis wird im Allgemeinen zur Sequenzgenerierung verwendet. LSTM verwendet ein CNN als Feature-Extractor und erzeugt Wörter nacheinander, um sinnvolle Sätze zu erzeugen. LSTM berechnet das Vergessengatter zu jedem Zeitstempel T.

Gleichung 42

Dabei gilt f_t als Vergessen-Gatter, σ als Aktivierungsfunktion, w_f als Gewicht und b_f als Verzerrung,

Y_T wird als Eingabemerkmalvektor betrachtet, H_T-1 als verborgener Zustand.

Gleichung 48 (22)

Gleichung 49 (23)

J_t wird als Eingabe betrachtet, Gleichung 106 als Kandidatenzustand, w_j und w_c als Gewicht für Eingabe bzw. Kandidatenzustand, b_j & b_c oder als Verzerrung betrachtet.

Gleichung 54 (24)

C_t gilt als All-State, C_t-1 als vorheriger Zustand.

Gleichung 57 (25)

O_t wird als Output betrachtet, w_o als Gewicht und b_o als Bias. Um die versteckten und zellartigen Zustände zu initialisieren, sind folgende Berechnungen erforderlich.

Gleichung 61 (26)

Gleichung 62 (27)

Dabei werden h_i und C_i als verborgener und Zellzustand betrachtet, w_h und w_c sind Gewichte für den versteckten bzw. Segelzellzustand, b_c und b_h als Bias und k als Merkmalsextraktor. Die Reihenfolge der Bildunterschrift wird berechnet wie folgt:

Gleichung 69 (28)

Dabei ist T die Länge der generierten Bildunterschrift.

254 × 254 × 3 ist das neu dimensionierte oder vorbearbeitete Bild, und I gilt als Eingabebild.

Gleichung 71 (29)

Während W und b als Gewicht bzw. Bias betrachtet werden, I als Eingabemerkmale und ReLU als Aktivierungsfunktion. Es handelt sich um die Berechnung der Faltungsschicht. Nun kann die Pooling-Schicht wie folgt berechnet werden:

Gleichung 72 (30)

Nachdem die Pooling-Schicht abgeschlossen war; Die vollständig verbundene Schicht kann wie folgt abgebildet werden:

Gleichung 73 (31)

wobei w_f und b_f als Gewicht bzw. Bias des Netzwerks betrachtet werden.

Gleichung 74 (32)

Gleichung 75 (33)

Dabei wird N als räumlicher Bereich betrachtet und d als Dimension des Merkmals.

Gleichung 76 (34)

Gleichung 77 (35)

Dabei werden w_h und b_h als Gewicht und Bias des verborgenen Zustands betrachtet, w_c und b_c als Gewicht bzw. Bias des Zellzustands. Die Bildunterschrift kann wie folgt generiert werden:

Gleichung 78 (36)

Encoder und Decoder
Das vorgeschlagene System kodiert die Daten für die maschinelle Übersetzung mittels eines CNN. In diesem Fall sind Ein- und Ausgabe beide Sequenzen, aber sie können sich in ihrer Länge unterscheiden. Jeder Vektor kodiert und dekodiert die Maschine einzeln. Mit einem Vektor als Ausgangspunkt beginnt die Maschine mit der Kodierung und Dekodierung und rechnet weiter, bis zur endgültigen bedingten Wahrscheinlichkeitsverteilung. Ein Beispiel ist wie folgt:

Gleichung 80 (37)

Dies wird als Wahrscheinlichkeitsverteilung betrachtet.

Das System kann die Daten in Form eines Vektorbilds kodieren, und sie können später dekodiert werden. fc_n (I) gilt als Bildmodell für das Bildverstehen.

Gleichung 83 (38)

Gleichung 84 (39)

Gleichung 85 (40)

S₁ ist die folgende Iteration von S₀, und S₂ ist die anschließende Iteration von S₁. Man könnte sagen, dass jeder Eingang vom Ausgang der vorherigen Schicht abhängt. Die Bilder werden von CNN in Vektoren umgewandelt und an die folgende Schicht gesendet, die alle Vektoren durchläuft. Hier wird ein Aufmerksamkeitsmechanismus verwendet, um die Wörter nach der Entschlüsselung der Vektoren in Wörter sequenziell zu einem sinnvollen Satz zu ordnen.

Gleichung 86 (41)

Wobei T die Länge des Eingangs ist.

Gleichung 87 (42)

Gleichung 88 (43)

k₁, k₂, k₃, k₄, ......, k_t-1 sind versteckte Dekodierzustände.

Abbildung 2: Kodierungs- und Dekodierungsmodell. Diese Abbildung zeigt das Encoder-Decoder-Framework, das für Bildunterschriften verwendet wird, und zeigt, wie Bildmerkmale in Vektordarstellungen kodiert und anschließend in sequentielle Textbeschreibungen dekodiert werden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Prozessmodell
Siehe Abbildung 3, das das Flussdiagramm der Trainingsmodule zeigt, in dem der Datensatz und seine Ground-Truth-Unterschriften zuerst geladen wurden. Nachdem die Daten für die CNN-Codierung normalisiert wurden, wird das ResNet-Modell initialisiert und mit den extrahierten Features trainiert. RNN und die systemspezifischen Wörter, die mit Start- und Endmarkern markiert sind, können dann zur Entschlüsselung der Bildunterschrift verwendet werden. Das System schließt die Extraktion ab, wenn das letzte Wort gefunden wird, und N ist die Gesamtzahl der Wörter in der Kandidatenunterschrift.

Abbildung 3: Flussdiagramm des Trainingsmodells. Diese Abbildung beschreibt den Schritt-für-Schritt-Prozess beim Modelltraining, einschließlich Datenvorverarbeitung, Feature-Extraktion, Modelllernen und Optimierung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Das Flussdiagramm des Testmodells ist in Abbildung 4 dargestellt, wo das System zunächst den Encoder- und Decoder-Modellen lädt und dann das ResNet-Modell sowie die Eingabedaten zur Bildunterschriftsextraktion lädt. Wenn keine Dekodierungsfehler vorliegen, kann man vom ersten bis zum letzten Wort eine Schlussfolgerung anstellen. Nachdem das letzte Wort erreicht ist, können entschlüsselte Wörter erhalten werden, und eine Bildunterschrift kann durch einen Aufmerksamkeitsmechanismus erstellt werden, um die Wörter nacheinander sinnvoll zu ordnen. Die Balkengröße des Trainingsmodells beträgt fünf mit einer maximalen Länge von 20, und die Chargengröße beträgt 128 mit 20 Epochen.

Abbildung 4: Flussdiagramm des Testmodells. Diese Abbildung zeigt den Testablauf und zeigt, wie Eingabebilder durch das trainierte Modell verarbeitet werden, um Bildunterschriften zu erzeugen und die Leistung zu bewerten. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

ResNet-152 Bilduntertitelungsalgorithmus
Initialisieren Sie die Eingabe- und Ausgabeparameter, und hier wird die Eingabe als Menge der MSCOCO-Bilder genommen, da I = (i₁, i₂, i₃, ....... i_N) zusammen mit Annotation J = (j₁, j₂, j₃, ......... j_N) und die Ausgabe wird als Bildunterschriften berechnet. Im allerersten Schritt ist eine Eingabe erforderlich, dann werden die Bilder vorverarbeitet, indem das Seitenverhältnis angepasst wird als

Gleichung 92 (44)

Wobei w und h die ursprüngliche Bildbreite und -höhe sind, w_new und h_new die neu dimensionierten Maße, gilt T_s als vordefinierte Zielgröße (T_s = 224), max(w, h) definiert die größte Dimension, die skaliert wurde, um das Seitenverhältnis beizubehalten.

Nach der Feature-Extraktion muss der Identitätsblock als

Gleichung 100 (45)

Dann initialisiere die Parameter wie Batchgröße, Anzahl der Epochen, W_{als verstecktes}Gewicht für versteckte Schichten, W_{als Ausgabe} für die Ausgabeschicht und B-Höhe sowie_{B-Bias als Bias}. Sobald die Initialisierung abgeschlossen ist, muss die Ausgabe der Faltungsschicht berechnet werden.

Gleichung 101 (46)

Er kann als normaler ReLU-Block betrachtet werden, wenn b_l äquivalent zu 1 ist. Aber wenn b_l nicht gleich 1 oder gleich 0 ist, dann wäre es;

Gleichung 102 (47)

Berechnen Sie dann die Überlebensmachbarkeit durch

Gleichung 103 (48)

Dabei gilt F_K als Überlebensmachbarkeit des Systems und K als Gesamtanzahl der Blöcke im Modell. Berechnen Sie dann die Wahrscheinlichkeitsverteilung

Gleichung 104 (49)

Sobald die Wahrscheinlichkeitsverteilung berechnet wurde, wird das Modell gebaut, um darauf zuzugreifen und die Daten zu dekodieren.

Gleichung 105 /9500

k₁, k₂, k₃, k₄, ......, k_t-1 sind versteckte Dekodierzustände.

Beim Zugriff auf das Modell müssen Aufmerksamkeitsmechanismen für die Bildunterschriftserstellung angewendet werden, die die Kandidatenunterschrift mit der Referenzunterschrift vergleichen; Endkennzahlen können dann mit BLEU, METEOR, CIDEr und ROUGE ausgewertet werden.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Software- und Umweltspezifikationen
Python 3.10 war die Hauptprogrammiersprache für die Experimente. Visual Studio Code wurde verwendet, um die Entwicklungsumgebung (VS Code) einzurichten. Wichtige Bibliotheken, die in dieser Forschung verwendet werden, sind Pickle für Datenserialisierung, Multiprocessing für parallele Verarbeitung, glob für Dateiverarbeitung und PyTorch für die Entwicklung von Deep-Learning-Modellen. Die Hardware-Konfiguration umfasste 256 GB Speicher, 8 GB RAM und eine NVIDIA GTX-Se...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Im Bereich der künstlichen Intelligenz ist das Untertiteln von Bildern eine schwierige Aufgabe. Bildunterschriften waren Gegenstand zahlreicher Studien, und akute oder präzise Unterschriften erfordern nach wie vor höchste Präzision. Viele Machine-Learning-Techniken können verwendet werden, um das Ziel der Bilduntertitelung zu erreichen, und zahlreiche Studien haben CNN, RNN und ResNet-152 verwendet. Allerdings sind erhöhte Präzision und verkürzte Bearbeitungszeit notwendig. Das vorgeschl...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren geben an, dass sie keine konkurrierenden finanziellen Interessen oder persönlichen Beziehungen haben, die die in diesem Artikel berichtete Arbeit hätten beeinflussen können.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wir würdigen die Ersteller der MSCOCO-Datensätze für die Bereitstellung der in dieser Studie verwendeten Benchmarks. Die Autoren geben an, dass für diese Studie keine externe Finanzierung erhalten wurde.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	AMD Ryzen 5000 Series ist eine Reihe von Hochleistungsprozessoren, die von AMD auf Basis der Zen 3-Architektur entwickelt wurden. Diese Prozessoren werden häufig in Desktops und Laptops für allgemeine Datenverarbeitung und anspruchsvolle Aufgaben wie Datenverarbeitung und Machine-Learning-Workflows verwendet.
GPU	NVIDIA	4.71933E+12	Die NVIDIA GeForce GTX ist eine Reihe von Grafikverarbeitungseinheiten (GPUs), die von NVIDIA entwickelt wurden und weit verbreitet für Gaming sowie allgemeine Datenverarbeitungsaufgaben wie Deep Learning und Bildverarbeitung sind.
Intel Core i5	Intel	BX8071514400F	Intel Core i5 ist eine Mittelklasse-Prozessorserie, die von Intel entwickelt wurde und häufig in Personalcomputern für allgemeine und rechnerische Aufgaben verwendet wird.
Python 3.10	Python Software Foundation	PEP 619	Python ist eine hohe, interpretierte Programmiersprache, die häufig in der wissenschaftlichen Informatik, Datenanalyse und im Machine Learning verwendet wird. Es ist bekannt für seine Einfachheit, Lesbarkeit und umfangreiche Bibliotheken.
PyTorch	Facebook	26.03-py3	PyTorch ist ein Open-Source-Deep-Learning-Framework, das von Meta Platforms (früher Facebook) entwickelt wurde und häufig für den Aufbau und das Training von neuronalen Netzen in Forschung und Industrie verwendet wird.
Visual Studio Code	Microsoft	None	Visual Studio Code (VS Code) ist ein leichter, quelloffener Code-Editor, der von Microsoft entwickelt wurde. Er wird häufig für Softwareentwicklung einschließlich Machine Learning- und Deep Learning-Projekten verwendet.
Windows 11	Microsoft	KB5083631	Windows 11 ist ein Betriebssystem, das von Microsoft entwickelt wurde und häufig für allgemeine Computeranwendungen sowie Softwareentwicklung und Machine-Learning-Aufgaben verwendet wird.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Bildunterschriftengenerierung mit Deep-Learning-Ansätzen

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles