Research Article

Bildunterschriftengenerierung mit Deep-Learning-Ansätzen

June 12th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dieses Protokoll verwendet CNNs, RNNs und ResNets für Bildunterschriften, wobei Beschreibungen der Aktivitäten, Menschen, Objekte und anderer Elemente der Bilder extrahiert werden. Sie wurde mit BLEU-, CIDEr-, METEOR- und ROUGE-Metrikwerten gerechtfertigt.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bildunterschriftengenerierung ist ein Versuch, eine aussagekräftige Textbeschreibung zu liefern, die ein Bild enthält. Die extrahierten Informationen sind relevant für die in den Bildern vorhandenen Aktivitäten. ResNet (Residual Network) ist bekannt für seine Fähigkeit, Bilder zu klassifizieren, da es tiefe hierarchische Darstellungen entwickelt hat. Ziel dieses Artikels ist es, ResNet mit verschiedenen intelligenten Filtern zu nutzen, um Bilder tiefer zu klassifizieren und so die Erstellung echter und aussagekräftiger Beschreibungen zu ermöglichen, die in Bezug auf die Referenzunterschriften sehr präzise sind. Hier verwendet die Arbeit eine intelligente Filtertechnik zur Verbesserung von Bildern, ein CNN zur Kodierung von Merkmalen, Modelltraining und anschließend ein RNN (Recurrent Neural Network) zur Entschlüsselung der Merkmale. ResNet ist ein sehr effektives Modell für Computer-Vision-Aufgaben, insbesondere für Objektklassifikation und semantische Analyse. ResNet ist bekannt für Residualverbindungen, die auch als überspringende Verbindungen bekannt sind und das Problem des verschwindenden Gradienten lösen, ein entscheidendes Problem im Deep Learning. Hier wird der MSCOCO (Microsoft Common Object in Context) Benchmark verwendet, um das Modell zu trainieren, das ein großer Datensatz mit Referenzannotationen ist, die für verschiedene Computer-Vision-Aufgaben nützlich sind. ResNet hilft, die Verallgemeinerungsfähigkeit zu verbessern, was besonders für verschiedene Bilder nützlich ist. Nach den erhaltenen Ergebnissen sind die BLUE-Werte B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEOR: 0,195; ROUGE: 0,396; und CIDEr: 0,6.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

In den Bereichen Computer Vision und natürliche Sprachverarbeitung ist Bildunterschrift eine entscheidende Aufgabe, die eine Beschreibung des Bildes und der dargestellten Aktionen extrahiert. Das Ziel des Modells ist es, Bilder zu verstehen und die Informationen in sinnvolle Sätze oder Bildunterschriften zu übersetzen.1. Das gesamte Verfahren besteht aus zwei bedeutenden Phasen: Die erste ist die Merkmalsextraktion, bei der ein CNN-Modell verwendet wird; die zweite ist die Bildbeschreibung mit einem RNN, und dazwischen wird ResNet für semantische Analyse, Sequenzgenerierung und einen Aufmerksamkeitsmechanismus verwendet. ResNet unterscheidet sich stark von vorlagenbasierten Methoden oder DenseNet-basierten Modulen, da es Skip-Verbindungen verwendet, die die Ausführungszeit verkürzen und gleichzeitig die Leistung verbessern. Es gibt zahlreiche Anwendungen der Bildunterschriften, darunter die Unterstützung sehbehinderter Menschen, die Förderung sozialer Medienplattformen, die Optimierung bildbasierter Suchmaschinen, bildbasierte KI (künstliche Intelligenz) und vielesmehr.

In der Computer Vision ist Szenenerkennung der Prozess, den allgemeinen Kontext oder die Umgebung des Bildes zu identifizieren und zu klassifizieren, wie zum Beispiel einen Strand, eine Stadt, einen Wald oder ein Büro. Im Gegensatz zur Objekterkennung, die sich auf einzelne Objekte konzentriert, berücksichtigt die Szenenerkennung Texturen, räumliche Anordnungen und Objektbeziehungen, um den größeren Kontext zu verstehen. Es verwendet CNNs und Vision Transformers, Deep-Learning-Modelle, die auf großen Datensätzen wie Places365 und ImageNet trainiert werden. Anwendungen umfassen Sicherheitsüberwachung, erweiterte und virtuelle Realität (AR und VR) für immersive Erlebnisse, Robotik für Umweltbewusstsein und autonome Fahrzeuge für die Navigation. Trotz Fortschritte machen Probleme wie wechselnde Blickwinkel, Okklusionen und veränderte Lichtveränderungen die Szenenerkennung zu einem heißen Thema in der Forschung an Computer Vision und künstlicher Intelligenz. Ein weiteres grundlegendes Problem im Computer Vision ist die Szenenerkennung.

EnsCaption, ein duales generatives adversariales Netzwerkmodell, wurde vorgeschlagen, um eine Generation–Retrieval-Ensemble-Technik3 zu verbessern. Dieses Layout ermöglicht harmonische, auf Fortpflanzung basierende Bildunterschriften, die Bildunterschriften mit den bestehenden Zielen generieren. Während die abrufbasierte Technik ein positions- oder bewertungsbasiertes Modell verwendet, um das beste Modell zur präziseren Extraktion von Informationen als die anderen in der bildbasierten Abfrage auszuwählen. Eine Abbildung von Bildern auf einen "Bedeutungsraum" wurde mithilfe visueller Komponenten wie Objekte, Aktivitäten und Szenen eingeführt, die dann mit entsprechenden verbalen Vorlagen4 ausgerichtet wurden. Anhand der in den Bildern gefundenen Korrelationen und Qualitäten konstruiert der Ansatz Phrasen. Sätze drücken Informationen auf reichhaltige, komprimierte und subtile Weise aus. Die Vorlagenbasierte Bildunterschriftengenerierung wurde durch die Einbeziehung von gesundem Menschenverstand zur Verbesserung des semantischen Verständnissesverbessert 5. Diese Technik erweiterte die Reichweite der Vorlage über direkte Bildeigenschaften hinaus und umfasste abgeleitete Assoziationen. Diese Arbeit verwendet einen bestehenden Objekterkennungsdatensatz, um für jede annotierte Kategorie 16.000 gesunden Menschenverstand-Anweisungen zu extrahieren. Zusätzlich wurde mit WordNet eine Verallgemeinerung erreicht, wodurch eine große Anzahl von Fakten über bisher unbekannte Objekteinduziert werden konnte 6. Bietet eine Übersicht über eine organisierte Taxonomie von Deep-Learning-Techniken zur Bildunterschrift, einschließlich Themen wie Aufmerksamkeitsmechanismen, Verstärkungslerntaktiken und Encoder-Decoder-Frameworks. Neben der Behandlung von Themen wie Objekthalluzinationen und kontextueller Verständnis untersucht es auch häufig verwendete Datensätze und Bewertungskriterien. Die Autoren weisen auf Bereiche für weitere Studien hin, wie etwa die Verbesserung der Seh-Sprach-Vortrainingstechniken und die Reduzierung von Datensatz-Verzerrungen. Ein semantischer Analyseansatz auf Basis von konvolutionellen neuronalen Netzen und rekurrenten neuronalen Netzen wurde für Bilduntertitelungsaufgaben7 untersucht. Bilduntertitelung ist eine der bekanntesten Anwendungen und ermöglicht es Computern, stimmungsvolle Phrasen zu erzeugen, die ein Bild einkapseln. Um hochrangige, bedeutende semantische Beschreibungen zu liefern, umfasst dieses Verfahren mehr als nur die Identifikation von Objekten und Szenen; Es beinhaltet auch die Untersuchung ihrer Zustände, Merkmale und Wechselwirkungen. Trotz der anhärenten Komplexität und Schwierigkeit der Bildunterschriften haben Wissenschaftler in diesem Bereich beeindruckende Fortschritte erzielt. Die drei wichtigsten in dieser Studie behandelten Deep-Neural-Netzwerk-basierten Bilduntertitelungstechniken sind CNN-RNN-basierte, CNN-CNN-basierte und Reinforcement-Learning-Frameworks. Ein durchgängiges, trainierbares Modell für Bilduntertitel wurde eingeführt, das Computer Vision und natürliche Sprachverarbeitung integriert, um kohärente Beschreibungen von Bildernzu erzeugen 8. Um eine Bildunterschrift zu erstellen, verwendet es ein Encoder-Decoder-Framework, bei dem ein LSTM ein Bild nach einer vortrainierten CNN in einen Merkmalsvektor kodiert. Trotz seiner Schwächen, darunter Schwierigkeiten mit komplexen Landschaften, ist der Beitrag des Aufsatzes zu Seh- und Sprachaufgaben dennoch grundlegend9.

ResNet ist das konvolutionelle neuronale Netzwerk (CNN), das im Bilduntertitelungsmodell der vorgeschlagenen Arbeit verwendet wird, um reichhaltige visuelle Informationen aus Eingabebildern zu extrahieren. ResNet dient als Encoder, um einen Merkmalvektor zu erzeugen, der das Bild repräsentiert und üblicherweise in einer Encoder-Decoder-Architektur verwendet wird. Der Decoder, der wortweise beschreibende Bildunterschriften erzeugt, erhält diese Funktionen und wird oft mit einem rekurrenten neuronalen Netzwerk (RNN) wie LSTM oder GRU implementiert. Ein Aufmerksamkeitsmechanismus kann hinzugefügt werden, um die Leistung zu verbessern, indem der Decoder beim Erzeugen jedes Wortes auf bestimmte Bildbereiche fokussieren kann. Um die Genauigkeit der Bildunterschriften zu maximieren, wird das Modell End-to-End mit einer Verlustfunktion wie Cross-Entropy und einem Datensatz wie COCO trainiert. Transfer Learning und ResNet-Feinabstimmung können die Feature-Extraktion verbessern, das Modell weiter stärken und es ermöglichen, hochwertige, kontextuell passende Bildunterschriften über eine breite Palette von Bildern zu erstellen. Beim Bilduntertiteln wird ResNet oft anderen Modellen vorgezogen, da es das Problem des verschwindenden Gradienten, ein häufiges Problem in tiefen neuronalen Netzen, effektiv angeht. Dies wird durch neuartige Residuallernansätze ermöglicht, die deutlich tiefere Netzwerke trainieren, ohne dabei Leistung zu beeinträchtigen, indem sie Skip-Verbindungen nutzen, um den Gradientenfluss während der Backpropagation zu erleichtern. Das mehrschichtige Perzeptron, ein vollständig verbundenes Vorwärts-neuronales Netzwerk, ist mit der trainierbaren Schicht verknüpft. Das RNN dekodiert dann die Unterschriften mit der Softmax-Schicht und erzeugt so Kandidatenunterschriften. Die Aktivierungsfunktion ist f(x), die Vorwärtsidentitätsfunktion ist f(x) + x, und x wird als Identität betrachtet, wie in Abbildung 1 dargestellt. In diesem Fall verwendet das System Residualblöcke, um das Modell während des Trainings zu kalibrieren, und seine Eingaben passieren sowohl Gewichtsverbindungen als auch Skip-Verbindungen, auch als Identitätsabkürzungen bezeichnet.

figure-introduction-1
Abbildung 1: Restverbindungsnetz. Diese Abbildung veranschaulicht die Architektur eines Restnetzwerks und hebt Skip-Verbindungen hervor, die den Gradientenfluss verbessern und verschwindende Gradienten während des Tiefennetztrainings mindern. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Angenommen, Pl ist die Ausgabe; L ist der Nr. von Restblöcken; ReLU soll ein gewöhnlicher Block sein, wenn er nahe an 1 liegt, aber wenn er nicht gleich 1 ist, kann er berechnet werden als:

figure-introduction-2(1)

Hier ist b die Zufallsvariable, und k die Abbildung der Abbildungsfunktion.

figure-introduction-3(2)

Hier wird sl als Überlebenswahrscheinlichkeit für das vorgeschlagene System betrachtet;

figure-introduction-4(3)

Die daraus resultierende Regel für die Überlebenswahrscheinlichkeit ist:

figure-introduction-5(4)

Wo SL sowohl die Überlebenswahrscheinlichkeit haben soll als auch L die Gesamtzahl von Null. von Blöcken.

Bildunterschriften sind eine anspruchsvolle Aufgabe, die natürliche Sprachverarbeitung und Computer Vision kombiniert, um beschreibende Textunterschriften für Bilder zu erstellen. Dazu muss man den visuellen Inhalt eines Bildes verstehen und interpretieren und ihn in kohärente Sätze im Kontext übersetzen. In diesem Bereich ist es entscheidend, umfangreiche und vielfältige Datensätze für die Modellevaluation und -ausbildung zu besitzen. Diese Datensätze bieten eine große Vielfalt an Bildern und zugehörigen Annotationen, die entscheidend für die Entwicklung und das Testen von Bildunterschriften-Algorithmen sind. Die am häufigsten verwendeten Datensätze sind MSCOCO und Flickr30k, die Millionen von Bildern enthalten und verschiedene Herausforderungen in der Bildverarbeitung darstellen. MSCOCO ist viel größer als Flickr30k11. Der MS COCO-Datensatz wurde in folgende Sätze aufgeteilt: 82.783 Bilder für Training, 40.504 für Validierung und 40.775 für Tests.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Implementierung erfolgte mit dem Hauptmodell, dem ResNet-152, zusammen mit einem Encoder als CNN, einem Decoder als RNN und den Ressourcen aus der Materialtabelle.

ResNet-152
ResNet gilt als das Rückgrat für die effizientere Extraktion von Features bei der Bildunterschrift. ResNet bot eine bessere Trainingsleistung als andere Modelle, da es das Problem des verschwindenden Gradienten löste und effizient löste. Verschiedene Objekte können in den Bildern erscheinen, und das Modell muss ihre Beziehungen verstehen, um eine bessere Bildunterschrift zu ermöglichen. Deshalb kann es als hierarchische Merkmalsextraktion betrachtet werden. ResNet-152 kann komplexe Computer-Vision-Aufgaben bewältigen. Der entscheidende Vorteil dieses Modells ist der effektive Einsatz von Rest- oder Sprungverbindungen. Es ist äußerst wirksam, um das Problem des verschwindenden Gradienten zu lösen. Es kann komplexe, robuste Funktionen lernen, um eine höhere Genauigkeit zu erreichen. ResNet-152 folgte einem Flaschenhals-Design, das die Rechenkosten senkte und es effektiver machte als andere Architekturen wie VGG-16. Es verfügt über ein herausragendes Transfer-Learning-Backbone, das für vortrainierte Modelle und vielfältige Aufgaben wie Objekterkennung und Datensegmentierung geeignet ist. Die Überspring-Verbindung beschleunigte das Training und machte es stabiler. Im Vergleich zum transformatorbasierten Modell, das einen Selbstaufmerksamkeitsmechanismus zur Erfassung sequentieller Daten verwendet, unterscheidet sich ResNet deutlich. Ein transformatorbasiertes Modell erfordert eine große Datenmenge für ein tiefes Verständnis der Textdaten, was effektive Ergebnisse liefert, aber etwas langsamer läuft. Die Motivation für die Wahl von ResNet sind seine Skip-Verbindungen, die die Ausführung beschleunigen und die Ergebnisse deutlich verbessern. Im Bereich der Bildunterschriften wird ResNet verwendet, um die Features zu extrahieren, die das Objekt und die im Bild ausgeführte Aktion darstellen. ResNet verwendete ein Residualnetzwerk, das Skip-Verbindungen nutzte. Hier kann der Restblock mit Bezug auf Eingabe Z berechnet werden als:

figure-protocol-1(5)

Dabei gilt Z als Eingang des Restblocks.
figure-protocol-2ist eine Restfunktion, die Batch-Normalisierung, Faltungsschichten und ReLu-Aktivierung umfasst. {xi} gilt als das Lerngewicht der entsprechenden Schichten. Z definiert auch die Skip-Verbindungsidentität, die ebenfalls das Problem des verschwindenden Gradienten löst. ResNet wird allgemein als Feature-Extractor für visuelle Feature-Mapping aus den Bildern verwendet. Hier gilt I als das Eingabebild, um die Merkmalsabbildungen in eine hochvisuelle Merkmalsrepräsentation V darzustellen.

figure-protocol-3(6)

Vor der Extraktion von Features muss das Bild vorbearbeitet werden, um die Merkmalsextraktion zu verbessern. Es gilt als ein Rohbild, das aus dem MSCOCO-Benchmark stammt, daher besteht der erste Schritt in der Vorverarbeitung darin, es zu skalieren und zu normalisieren.

figure-protocol-4(7)

figure-protocol-5(8)

Dabei ist Hl die Bildhöhe und Wl das Gewicht des Bildes. IResize ist das vergrößerte Bild.

Um den Pixelwert aus dem Bereich [-1, 1] oder [0, 1] zu normalisieren,

figure-protocol-6(9)

Wobei μ als Mittelwert des Pixels betrachtet wird , wird σ als Standardabweichung des referenzierten Bildes betrachtet. Das normalisierte Bild wird nun für die Feature-Extraktion weiterverarbeitet.

figure-protocol-7(10)

Wobei figure-protocol-8 dies als Merkmalsvektor betrachtet wird. Wenn die Zeilenunterschrift tokenisiert wird, wird sie in das numerische Format umgewandelt.

figure-protocol-9(11)

Wenn sich die Bildunterschrift in Worte aufteilt, dann

figure-protocol-10(12)

Hier spielt der Wortschatz eine wichtige Rolle, wobei jedes Wort eindeutig durch ganzzahlbasierte Indexierung identifiziert wird.

figure-protocol-11(13)

wobei Vc als Vokabularfunktion betrachtet wird; Es muss sichergestellt werden, dass alle Sequenzen eine gleichmäßige Länge haben; daher wird die maximale Höhe oder ideale Länge als LMax betrachtet.

figure-protocol-12(14)

Jetzt werden Token eingebettet als;

figure-protocol-13(15)

für j = 1,2,3, ... .., Lmax

wobei figure-protocol-14 als eingebetteter Vektor mit K Dimensionen betrachtet wird; nun soll der Decoder verwendet werden, um die Bildunterschrift für die Kandidat-Bildunterschriftengenerierung zu dekodieren, die auf einem probabilistischen Modell basiert.

figure-protocol-15(16)

Wobei wj ein Werk mit Zeitstempel j ist, w1: j-1 das generierte Wort am Zeitstempel j-1 und ej-1 das eingebettete Merkmal mit dem vorherigen Wort wj-1 darstellt. Bei jedem Zeitstempel wird das Netzwerk, das das nächste kommende Wort oder die nächste Wahrscheinlichkeit vorhersagt, über den Wortschatz berechnet.

figure-protocol-16(17)

Dabei ist wder Ausgang das Ausgabegewicht und bder Ausgang die Ausgangsvorspannung. Die maximale Wahrscheinlichkeit wird also berechnet wie folgt:

figure-protocol-17(18)

Die maximale Länge der Kandidatenunterschrift wird berechnet, sobald das Wort empfangen oder als spezielles Token wie und identifiziert wurde. Die Strahlsuche ist auch nützlich, um die bessere Kandidatenunterschrift auszuwählen, daher lautet die Reihenfolge:

figure-protocol-18(19)

figure-protocol-19(20)

Die generierte Kandidatenunterschrift ist also die Folge von figure-protocol-20

Das Langzeitgedächtnis wird im Allgemeinen zur Sequenzgenerierung verwendet. LSTM verwendet ein CNN als Feature-Extractor und erzeugt Wörter nacheinander, um sinnvolle Sätze zu erzeugen. LSTM berechnet das Vergessengatter zu jedem Zeitstempel T.

figure-protocol-21

Dabei gilt ft als Vergessen-Gatter, σ als Aktivierungsfunktion, wf als Gewicht und bf als Verzerrung,

YT wird als Eingabemerkmalvektor betrachtet, HT-1 als verborgener Zustand.

figure-protocol-22(22)

figure-protocol-23(23)

Jt wird als Eingabe betrachtet, figure-protocol-24 als Kandidatenzustand, wj und wc als Gewicht für Eingabe bzw. Kandidatenzustand, bj & bc oder als Verzerrung betrachtet.

figure-protocol-25(24)

Ct gilt als All-State, Ct-1 als vorheriger Zustand.

figure-protocol-26(25)

Ot wird als Output betrachtet, wo als Gewicht und bo als Bias. Um die versteckten und zellartigen Zustände zu initialisieren, sind folgende Berechnungen erforderlich.

figure-protocol-27(26)

figure-protocol-28(27)

Dabei werden hi und Ci als verborgener und Zellzustand betrachtet, wh und wc sind Gewichte für den versteckten bzw. Segelzellzustand, bc und bh als Bias und k als Merkmalsextraktor. Die Reihenfolge der Bildunterschrift wird berechnet wie folgt:

figure-protocol-29(28)

Dabei ist T die Länge der generierten Bildunterschrift.

254 × 254 × 3 ist das neu dimensionierte oder vorbearbeitete Bild, und I gilt als Eingabebild.

figure-protocol-30(29)

Während W und b als Gewicht bzw. Bias betrachtet werden, I als Eingabemerkmale und ReLU als Aktivierungsfunktion. Es handelt sich um die Berechnung der Faltungsschicht. Nun kann die Pooling-Schicht wie folgt berechnet werden:

figure-protocol-31(30)

Nachdem die Pooling-Schicht abgeschlossen war; Die vollständig verbundene Schicht kann wie folgt abgebildet werden:

figure-protocol-32(31)

wobei wf und bf als Gewicht bzw. Bias des Netzwerks betrachtet werden.

figure-protocol-33(32)

figure-protocol-34(33)

Dabei wird N als räumlicher Bereich betrachtet und d als Dimension des Merkmals.

figure-protocol-35(34)

figure-protocol-36(35)

Dabei werden wh und bh als Gewicht und Bias des verborgenen Zustands betrachtet, wc und bc als Gewicht bzw. Bias des Zellzustands. Die Bildunterschrift kann wie folgt generiert werden:

figure-protocol-37(36)

Encoder und Decoder
Das vorgeschlagene System kodiert die Daten für die maschinelle Übersetzung mittels eines CNN. In diesem Fall sind Ein- und Ausgabe beide Sequenzen, aber sie können sich in ihrer Länge unterscheiden. Jeder Vektor kodiert und dekodiert die Maschine einzeln. Mit einem Vektor als Ausgangspunkt beginnt die Maschine mit der Kodierung und Dekodierung und rechnet weiter, bis zur endgültigen bedingten Wahrscheinlichkeitsverteilung. Ein Beispiel ist wie folgt:

figure-protocol-38(37)

Dies wird als Wahrscheinlichkeitsverteilung betrachtet.

Das System kann die Daten in Form eines Vektorbilds kodieren, und sie können später dekodiert werden. fcn (I) gilt als Bildmodell für das Bildverstehen.

figure-protocol-39(38)

figure-protocol-40(39)

figure-protocol-41(40)

S1 ist die folgende Iteration von S0, und S2 ist die anschließende Iteration von S1. Man könnte sagen, dass jeder Eingang vom Ausgang der vorherigen Schicht abhängt. Die Bilder werden von CNN in Vektoren umgewandelt und an die folgende Schicht gesendet, die alle Vektoren durchläuft. Hier wird ein Aufmerksamkeitsmechanismus verwendet, um die Wörter nach der Entschlüsselung der Vektoren in Wörter sequenziell zu einem sinnvollen Satz zu ordnen.

figure-protocol-42(41)

Wobei T die Länge des Eingangs ist.

figure-protocol-43(42)

figure-protocol-44(43)

k1, k2, k3, k4, ......, kt-1 sind versteckte Dekodierzustände.

figure-protocol-45
Abbildung 2: Kodierungs- und Dekodierungsmodell. Diese Abbildung zeigt das Encoder-Decoder-Framework, das für Bildunterschriften verwendet wird, und zeigt, wie Bildmerkmale in Vektordarstellungen kodiert und anschließend in sequentielle Textbeschreibungen dekodiert werden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Prozessmodell
Siehe Abbildung 3, das das Flussdiagramm der Trainingsmodule zeigt, in dem der Datensatz und seine Ground-Truth-Unterschriften zuerst geladen wurden. Nachdem die Daten für die CNN-Codierung normalisiert wurden, wird das ResNet-Modell initialisiert und mit den extrahierten Features trainiert. RNN und die systemspezifischen Wörter, die mit Start- und Endmarkern markiert sind, können dann zur Entschlüsselung der Bildunterschrift verwendet werden. Das System schließt die Extraktion ab, wenn das letzte Wort gefunden wird, und N ist die Gesamtzahl der Wörter in der Kandidatenunterschrift.

figure-protocol-46
Abbildung 3: Flussdiagramm des Trainingsmodells. Diese Abbildung beschreibt den Schritt-für-Schritt-Prozess beim Modelltraining, einschließlich Datenvorverarbeitung, Feature-Extraktion, Modelllernen und Optimierung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Das Flussdiagramm des Testmodells ist in Abbildung 4 dargestellt, wo das System zunächst den Encoder- und Decoder-Modellen lädt und dann das ResNet-Modell sowie die Eingabedaten zur Bildunterschriftsextraktion lädt. Wenn keine Dekodierungsfehler vorliegen, kann man vom ersten bis zum letzten Wort eine Schlussfolgerung anstellen. Nachdem das letzte Wort erreicht ist, können entschlüsselte Wörter erhalten werden, und eine Bildunterschrift kann durch einen Aufmerksamkeitsmechanismus erstellt werden, um die Wörter nacheinander sinnvoll zu ordnen. Die Balkengröße des Trainingsmodells beträgt fünf mit einer maximalen Länge von 20, und die Chargengröße beträgt 128 mit 20 Epochen.

figure-protocol-47
Abbildung 4: Flussdiagramm des Testmodells. Diese Abbildung zeigt den Testablauf und zeigt, wie Eingabebilder durch das trainierte Modell verarbeitet werden, um Bildunterschriften zu erzeugen und die Leistung zu bewerten. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

ResNet-152 Bilduntertitelungsalgorithmus
Initialisieren Sie die Eingabe- und Ausgabeparameter, und hier wird die Eingabe als Menge der MSCOCO-Bilder genommen, da I = (i1, i2, i3, ....... iN) zusammen mit Annotation J = (j1, j2, j3, ......... jN) und die Ausgabe wird als Bildunterschriften berechnet. Im allerersten Schritt ist eine Eingabe erforderlich, dann werden die Bilder vorverarbeitet, indem das Seitenverhältnis angepasst wird als

figure-protocol-48(44)

Wobei w und h die ursprüngliche Bildbreite und -höhe sind, wnew und hnew die neu dimensionierten Maße, gilt Ts als vordefinierte Zielgröße (Ts = 224), max(w, h) definiert die größte Dimension, die skaliert wurde, um das Seitenverhältnis beizubehalten.

Nach der Feature-Extraktion muss der Identitätsblock als

figure-protocol-49(45)

Dann initialisiere die Parameter wie Batchgröße, Anzahl der Epochen, Wals verstecktes Gewicht für versteckte Schichten, Wals Ausgabe für die Ausgabeschicht und B-Höhe sowieB-Bias als Bias. Sobald die Initialisierung abgeschlossen ist, muss die Ausgabe der Faltungsschicht berechnet werden.

figure-protocol-50(46)

Er kann als normaler ReLU-Block betrachtet werden, wenn bl äquivalent zu 1 ist. Aber wenn bl nicht gleich 1 oder gleich 0 ist, dann wäre es;

figure-protocol-51(47)

Berechnen Sie dann die Überlebensmachbarkeit durch

figure-protocol-52(48)

Dabei gilt FK als Überlebensmachbarkeit des Systems und K als Gesamtanzahl der Blöcke im Modell. Berechnen Sie dann die Wahrscheinlichkeitsverteilung

figure-protocol-53(49)

Sobald die Wahrscheinlichkeitsverteilung berechnet wurde, wird das Modell gebaut, um darauf zuzugreifen und die Daten zu dekodieren.

figure-protocol-54/9500

k1, k2, k3, k4, ......, kt-1 sind versteckte Dekodierzustände.

Beim Zugriff auf das Modell müssen Aufmerksamkeitsmechanismen für die Bildunterschriftserstellung angewendet werden, die die Kandidatenunterschrift mit der Referenzunterschrift vergleichen; Endkennzahlen können dann mit BLEU, METEOR, CIDEr und ROUGE ausgewertet werden.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Software- und Umweltspezifikationen
Python 3.10 war die Hauptprogrammiersprache für die Experimente. Visual Studio Code wurde verwendet, um die Entwicklungsumgebung (VS Code) einzurichten. Wichtige Bibliotheken, die in dieser Forschung verwendet werden, sind Pickle für Datenserialisierung, Multiprocessing für parallele Verarbeitung, glob für Dateiverarbeitung und PyTorch für die Entwicklung von Deep-Learning-Modellen. Die Hardware-Konfiguration umfasste 256 GB Speicher, 8 GB RAM und eine NVIDIA GTX-Serie GPU mit CUDA-Unterstützung für schnellere Berechnungen. Für die Experimente wurde ein Computer verwendet, der entweder einen AMD Ryzen 5000-Prozessor oder einen Intel Core i5-Prozessor betrieb. Windows 10/11 war das Betriebssystem, das für die Implementierung verwendet wurde. Sie lässt sich leicht aus der Tabelle der Umweltspezifikationen in Tabelle 1 verstehen.

MaterialSpezifikation
GPUNVIDIA GTX-Serie
BibliothekenPyTorch, Pickle, Multiprogrammierung, Glob
BetriebssystemWindows 10/11
ProzessorIntel Core i5/AMD Ryzen 5000 Serie
ProgrammPython 3.10
RAM8 GB
SoftwareVisual Studio Code
Lagerung256 GB

Tabelle 1: Umweltspezifikationen. Diese Tabelle fasst die in der Implementierung verwendeten Materialien und deren Spezifikationen zusammen, wie Programmiersprachen, Bibliotheken und Hardwarespezifikationen.

Qualitative Analyse
Laut der qualitativen Analyse des Modells nach den verschiedenen Kategorien, wie Außen- und Innenszenen sowie einfachen und komplexen Szenen, ist das Modell etwas effizient bei der Beschreibung des Bildes. B1, B2, B3 und B4 gelten als BLEU-Werte. C gilt als CIDEr, M als METEOR und R als ROUGE. Für jede Matrix, bei der B1 0,579, B2 0,404, B3 0,279, B4 0,191, METEOR 0,195, ROUGE 0,396 und CIDEr 0,6 ist, wird das Ergebnis durch 1 dargestellt, wie in Tabelle 2 dargestellt.

MatrizenMSCOCO-Bewertungen
BLEU10.579
BLEU20.404
BLEU30.279
BLEU40.191
METEOR0.195
ROUGE0.396
CIDEr0.6

Tabelle 2: Versuchsergebnisse. Diese Tabelle fasst die Leistung des vorgeschlagenen Modells anhand von Bewertungskennzahlen wie BLEU, METEOR, ROUGE und CIDEr zusammen und bietet eine quantitative Bewertung der Bildunterschriftenqualität.

figure-results-1
Abbildung 5: Experimentelles Ergebnis. Diese Abbildung zeigt eine grafische Darstellung der Bewertungskennzahlen und veranschaulicht die vergleichende Leistung des Modells über verschiedene Messgrößen hinweg. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Der Ergebnisvergleich ist in den Tabellen 3, 4 und 5 dargestellt. Die folgenden Quellen sind in Tabellen 3, 3 und 4:10,11,12,13,14 aufgeführt

MethodeB1B2B3B4
Face-CapF [10]0.57130.36510.24070.1652
Face-Init [10]0.56630.36490.2430.1686
Face-CapL [11]0.5890.37890.25070.1719
Face-Step [10]0.58430.37560.24780.1696
CSPDN-BiLSTM-SelfAtt [12]0.60120.39920.27030.1921
CNN+RNN+ResNet-152 (vorgeschlagen)0.5790.4040.2790.191

Tabelle 3: Ergebnisvergleich für BLEU-Ergebnisse. Diese Tabelle vergleicht die BLEU-Score-Ergebnisse verschiedener Modelle oder Konfigurationen, um Verbesserungen bei der Genauigkeit der Bildunterschriftengenerierung hervorzuheben.

Wie in den Tabellen 3 und 4 gezeigt, schneidet CSPDN-BiLSTM-SelfAtt12 auf B1 und B4 besser ab, während CNN+RNN+ResNet-152 auf B2 und B3 besser abschneidet. CNN+RNN+ResNet-152 ist besser als METER und CIDEr, statt ROUGE. Beide Methoden sind also in den BLEU-Werten gleich, aber die vorgeschlagene ist besser als die anderen beiden Kennzahlen. Die Gesamtüberlegenheit im Ergebnis wird also durch die vorgeschlagene Methode erreicht. Face-CapF10, Face-Init10, Face-CapL11, Face-Step10 führen Bilduntertitel basierend auf dem FlickrFace11K-Datensatz durch. Aber die Ergebnisse sind selbst für einen großen Datensatz vergleichsweise schlecht. Obwohl das vorgeschlagene Modell einen deutlich höheren CIDEr-Wert hat, wird diese Diskrepanz durch Unterschiede im Bewertungsverfahren, der Datensatzvorbereitung und den Implementierungsdetails verursacht.

MethodeMETEORCIDErROUGE
Face-CapF [10]0.17190.23040.4476
Face-Init [10]0.17170.23130.4484
Face-CapL [11]0.17440.24720.4547
Face-Step [10]0.17450.22830.4504
CSPDN-BiLSTM-SelfAtt [12]0.19320.26170.4793
CNN+RNN+ResNet-152 (vorgeschlagen)0.1950.60.396

Tabelle 4: Ergebnisvergleich bezüglich METEOR, CIDEr und ROUGE. Diese Tabelle bietet eine vergleichende Analyse mehrerer Bewertungsmetriken, um die semantische und syntaktische Qualität erzeugter Untertitel zu bewerten.

MethodeB1B2B3B4METEORROUGE
Template-Augmentation [13]0.2380.1090.050.0220.0960.249
EfficientNetB0 [14]0.28270.13250.05880.02660.26610.3609
EfficientNetB1 [14]0.2890.14040.06420.02860.2710.3718
ResNet50 [14]0.26370.12170.04960.02070.24370.3423
MobileNetV2 [14]0.21060.0640.02150.0090.17940.2606
CNN+RNN+ResNet-152 (vorgeschlagen)0.5790.4040.2790.1910.1950.396

Tabelle 5: Ergebnisvergleich für BLEU-, METEOR- und ROUGE-Werte. Diese Tabelle zeigt einen konsolidierten Vergleich wichtiger Bewertungskennzahlen, um die Gesamtwirksamkeit des Modells zu demonstrieren.

Laut Tabelle 5 ist EfficientNetB114 besser für METEOR, aber CNN+RNN+ResNet-152 ist besser für B1-B 4 und ROUGE. Insgesamt ist das vorgeschlagene Ergebnis in allen BLEU- und ROUGE-Metriken im Vergleich zu den genannten Methoden überlegen.

DATENVERFÜGBARKEIT:
Alle Rohdaten und Code-Dateien, die mit dieser Studie verbunden sind, sind in den ergänzenden Dateien verfügbar.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Im Bereich der künstlichen Intelligenz ist das Untertiteln von Bildern eine schwierige Aufgabe. Bildunterschriften waren Gegenstand zahlreicher Studien, und akute oder präzise Unterschriften erfordern nach wie vor höchste Präzision. Viele Machine-Learning-Techniken können verwendet werden, um das Ziel der Bilduntertitelung zu erreichen, und zahlreiche Studien haben CNN, RNN und ResNet-152 verwendet. Allerdings sind erhöhte Präzision und verkürzte Bearbeitungszeit notwendig. Das vorgeschlagene System wurde mit CNN als Encoder, RNN als Decoder, Torch Vision als Bibliothek und ResNet als primärem Trainingsmodell aufgebaut. ResNet nutzt die Skip-Connection-Technik, um die Schichten zu nutzen und so eine bessere Leistung zu erzielen als andere konventionelle Modelle wie Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2 und viele weitere 10,11,12,13,14.

Die entscheidenden Schritte in der vorgeschlagenen Arbeit sind die Verwendung eines intelligenten Filters zum Löschen der Bilder und anschließend die Feature-Extraktion aller Hauptschritte. Ohne präzise Merkmalsextraktion ist es nicht möglich, das Ziel des Modells zu erreichen, und wenn das System die Merkmale nicht korrekt extrahiert, wird die Genauigkeit der Metrikwerte beeinträchtigt. Die Trainingsphase, die mit einer tiefgehenden Analyse der Merkmalsvektoren und des Aufmerksamkeitsmechanismus durchgeführt wurde, spielte eine entscheidende Rolle bei der Entschlüsselung der Testdaten. Es gibt auch einen weiteren entscheidenden Schritt in der Arbeit, nämlich die Aktualisierung des Gesangs. Wenn beim Testen der Daten neue Wörter auftauchen, werden diese Wörter dem Wörterbuch angehängt, um die Leistung des Modells zu verbessern. Diese kritischen Schritte spielten eine entscheidende Rolle bei der Erreichung einer besseren Genauigkeit, die höher war als die des zuvor vorgeschlagenen Modells, wie der Template Augmentation Method. Das System trainierte ein Modell für den MSCOCO-Benchmark und erhielt ein effektiveres Modell zum Untertiteln von Bildern.

Wenn die Testdatengröße zunimmt, kann es möglich sein, neue Wörter mit den Bildern zu haben. Es kann auch zu Bedeutungslosigkeit beim Erstellen von Bildunterschriften führen und dann über den Aufmerksamkeitsmechanismus gehandhabt werden, der im Modell verwendet wurde. Der Wortschatz kann durch einen Aufmerksamkeitsmechanismus aktualisiert werden, der für spätere Bewertungen wirksam sein kann. Es kann als Selbststudium oder Ausnahmebehandlung betrachtet werden. Da das Modell mit MSCOCO trainiert wird, das Tausende von realen Bildern enthält, entstehen so viele Objekte, die bei jeder Inferenz aktualisiert werden müssen.

Ein Nachteil dieser Arbeit ist, dass das Modell im Vergleich zu zeitgenössischen Datensätzen, die zum Training verwendet werden, auf deutlich älteren Bildern, insbesondere Schwarzweiß- oder minderwertigen historischen Bildern, aufgrund von Unterschieden in visuellen Merkmalen, Kontrasten und Textur, schlecht abschneiden kann. Wenn Bilder eine schlechte Auflösung haben, ist es schwieriger, die genauen Merkmale zu extrahieren, und ResNet-152 kann in diesem Fall die Codierungsphase verschlechtern. Außerdem schneidet es bei zu vielen älteren Bildern schlecht ab, was bedeutet, dass diese Bilder aus der Antike stammen, weil die Merkmalsvektoren schlecht oder beschädigt sind. Einschränkungen umfassen die Bewertung eines einzelnen Datensatzes und das Fehlen von Kreuzvalidierung.

Im Vergleich zu herkömmlichen Ansätzen ist das vorgeschlagene Modell besser, da es die Feature-Extraktion verbessert und somit die Bildunterschriftengenerierung verbessert. Smart Filtering verbessert die Phase der Feature-Extraktion oder -Codierung, was das Modell besser aufbaut. ResNet-152 verwendet außerdem Skip-Verbindungen, die während des Trainings Zeit nutzen. Die Ausführung ist also viel schneller als bei anderen Modellen wie EfficientNetB014. Der Aufmerksamkeitsmechanismus ist ebenfalls ein Hauptfaktor, der die Leistung des Modells verbessert.

Die Technik kann in Bildabrufsystemen, automatisierter Überwachung und unterstützenden Technologien für Menschen mit Sehbehinderungen eingesetzt werden. Da sich künstliche Intelligenz rasant weiterentwickelt, ist eine Verbesserung des Bildwiederherstellungssystems erforderlich, und diese Technik kann dazu beitragen. Mit diesem Modell können sehbehinderte Menschen Hilfe beim Sehen der Welt erhalten, indem sie sie in Sprache übersetzen. Es gibt mehrere wichtige und potenzielle Anwendungen von Bilduntertiteln.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren geben an, dass sie keine konkurrierenden finanziellen Interessen oder persönlichen Beziehungen haben, die die in diesem Artikel berichtete Arbeit hätten beeinflussen können.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wir würdigen die Ersteller der MSCOCO-Datensätze für die Bereitstellung der in dieser Studie verwendeten Benchmarks. Die Autoren geben an, dass für diese Studie keine externe Finanzierung erhalten wurde.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
AMD Ryzen 5000 SerieAMD100-1000000059WOFDie AMD Ryzen 5000 Serie ist eine Reihe von Hochleistungsprozessoren, die von AMD entwickelt wurden und auf der Zen 3-Architektur basieren. Diese Prozessoren werden in Desktops und Laptops sowohl für allgemeine Zwecke als auch für anspruchsvolle Aufgaben wie Datenverarbeitung und maschinelles Lernen häufig eingesetzt.
GPUNVIDIA 4.71933E+12Der NVIDIA GeForce GTX ist eine Serie von Grafikprozessoren (GPUs), die von NVIDIA entwickelt wurden und sowohl für Gaming als auch für allgemeine Rechenaufgaben wie Deep Learning und Bildverarbeitung häufig eingesetzt werden.
Intel Core i5IntelBX8071514400FDer Intel Core i5 ist eine von Intel entwickelte Prozessorserie für mittlere Klasse, die in Personal Computern sowohl für allgemeine als auch für rechnerische Aufgaben weit verbreitet eingesetzt wird.
Python 3.10Python Software FoundationPEP 619Python ist eine hochstufe, interpretierte Programmiersprache, die weit verbreitet in der wissenschaftlichen Berechnung, Datenanalyse und maschinellem Lernen verwendet wird. Sie ist bekannt für ihre Einfachheit, Lesbarkeit und ihr umfangreiches Ökosystem von Bibliotheken.
PyTorchFacebook26.03-py3PyTorch ist ein Open-Source-Deep-Learning-Framework, das von Meta Platforms (früher Facebook) entwickelt wurde und weit verbreitet zum Aufbau und Training neuronaler Netzwerke in Forschung und Industrie verwendet wird.
Visual Studio CodeMicrosoftKeineVisual Studio Code (VS Code) ist ein leichter, quelloffener Code-Editor, der von Microsoft entwickelt wurde. Es wird weit verbreitet für die Softwareentwicklung eingesetzt, einschließlich maschinellem Lernen und Deep-Learning-Projekten.
Windows 11MicrosoftKB5083631Windows 11 ist ein von Microsoft entwickeltes Betriebssystem, das häufig für allgemeine Computeranwendungen sowie für Softwareentwicklung und maschinelles Lernen eingesetzt wird.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Image Caption GenerationDeep LearningResNet ModelSmart FilteringFeature EncodingCNN EncoderRNN DecoderObject ClassificationSemantic AnalysisMSCOCO Dataset

Related Articles