Generowanie napisów obrazowych za pomocą podejść do głębokiego uczenia się

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

Generowanie napisów obrazowych za pomocą podejść do głębokiego uczenia się

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ten protokół wykorzystuje CNN, RNN oraz ResNet do tworzenia napisów do obrazów, wyodrębniając opisy czynności, osób, obiektów i innych elementów znajdujących się na obrazach. Jego skuteczność została uzasadniona za pomocą wyników wskaźników BLEU, CIDEr, METEOR i ROUGE.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Generowanie podpisów do obrazów to staranie o zapewnienie znaczącego opisu tekstowego, który odnosi się do obrazu. Wyodrębnione informacje mają znaczenie dla czynności przedstawionych na obrazach. ResNet (Residual Network) jest dobrze znany ze swojej zdolności do klasyfikacji obrazów, opracowując głębokie hierarchiczne reprezentacje. Intencją tego artykułu jest zastosowanie ResNet z różnymi inteligentnymi filtrami do głębszego klasyfikowania obrazów, umożliwiając generowaniu autentycznych i znaczących opisów, które są bardzo precyzyjne w odniesieniu do referencyjnych podpisów. Tutaj praca wykorzystuje inteligentną technikę filtrowania do poprawy obrazów, CNN do kodowania cech, trening modelu, a następnie RNN (Recurrent Neural Network) do dekodowania cech. ResNet jest bardzo efektywnym modelem do zadań wizji komputerowej, szczególnie klasyfikacji obiektów i analizy semantycznej. ResNet jest dobrze znany z połączeń resztkowych, które są również znane jako połączenia pomijające, które rozwiązują problem znikającego gradientu, który jest kluczowy w uczeniu głębokim. Tutaj użyto benchmarku MSCOCO (Microsoft Common Object in Context) do przetrenowania modelu, który jest dużym zbiorem danych z referencyjnymi adnotacjami, przydatnymi w różnych zadaniach wizji komputerowej. ResNet pomaga poprawić zdolność generalizacji, co jest szczególnie przydatne dla zróżnicowanego obrazu. Zgodnie z uzyskanymi wynikami, wyniki BLUE to B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEOR: 0,195; ROUGE: 0,396; i CIDEr: 0,6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W obszarach widzenia komputerowego i przetwarzania języka naturalnego tworzenie napisów do obrazów jest zadaniem kluczowy, które ekstrahuje opis obrazu i przedstawionych na nim czynności. Intencją modelu jest zrozumienie obrazów i przetłumaczenie informacji na znaczące zdania lub napisy¹. Cały proces składa się z dwóch istotnych faz: pierwsza to ekstrakcja cech, gdzie wykorzystywany jest model CNN; druga to opis obrazu za pomocą RNN & pomiędzy nimi ResNet jest używany do analizy semantycznej, generowania sekwencji i mechanizmu uwagi. ResNet różni się znacznie od metod opartych na szablonach lub modułów opartych na DenseNet, ponieważ wykorzystuje połączenia pomijania, które zmniejszają czas wykonania, poprawiając jednocześnie wydajność. Istnieje wiele zastosowań tworzenia napisów do obrazów, które obejmują pomaganie osobom niewidomym, zwiększanie efektywności platform społecznościowych, optymalizację wyszukiwarek obrazowych, sztuczna inteligencja oparta na obrazach (AI) i wiele innych².

W widzeniu komputerowym rozpoznawanie scen to proces identyfikacji i klasyfikacji ogólnego kontekstu lub środowiska obrazu, takiego jak plaża, panorama miasta, las lub biuro. W przeciwieństwie do rozpoznawania obiektów, które koncentrują się na pojedynczych przedmiotach, rozpoznawanie scen uwzględnia tekstury, ułożenia przestrzenne i relacje obiektów, aby zrozumieć szerszy kontekst. Wykorzystuje CNN i Vision Transformers, głębokie modele uczenia się szkolowane na dużych zbiorach danych, takich jak Places365 i ImageNet. Zastosowania obejmują bezpieczeństwo, rzeczywistość rozszerzoną i wirtualną (AR i VR) dla immersyjnych doświadczeń, robotykę dla świadomości środowiskowej i autonomiczne pojazdy dla nawigacji. Pomimo postępu, problemy takie jak zmieniające się punkty widzenia, zasłony i zmieniające się oświetlenie sprawiają, że rozpoznawanie scen jest popularnym tematem w badaniach nad widzeniem komputerowym i sztuczną inteligencją. Innym fundamentalnym problemem w widzeniu komputerowym jest rozpoznawanie scen.

EnsCaption, dwójka generującego sieci adwersarnych, została zaproponowana, aby poprawić technikę zespołowego generowania i pobierania³. Ten układ umożliwia harmonijne, prokreacyjne metody tworzenia napisów do obrazów, które generują napisy zgodne z istniejącymi celami. Podczas gdy technika pobierania używa modelu opartego na pozycji lub ocenie, aby wybrać najlepszy model do dokładniejszego wyciągania informacji niż inne w zapytaniu opartym na obrazie. Zaproponowano mapowanie obrazów na “przestrzeń znaczeń” przy użyciu komponentów wizualnych, takich jak obiekty, działania i sceny, które następnie zostały dostosowane do odpowiednich szablonów werbalnych⁴. Korzystając z korelacji i cech znalezionych na obrazach, podejście konstruuje frazy. Zdania wyrażają informacje w sposób bogaty, skoncentrowany i subtelny. Generowanie napisów oparte na szablonach zostało ulepszone poprzez włączenie wiedzy powszechnej, aby poprawić zrozumienie semantyczne⁵. Ta technika rozszerzyła zasięg szablonu poza bezpośrednie cechy obrazu, aby obejmować wnioskowane skojarzenia. Ta praca wykorzystuje istniejący zbiór danych do wykrywania obiektów, aby wyodrębnić 16 000 powszechnych stwierdzeń dotyczących każdej zaznaczonej kategorii. Dodatkowo generalizacja została osiągnięta za pomocą WordNet, umożliwiając indukcję dużej liczby faktów dotyczących wcześniej niespotykanych obiektów⁶. Oferuje przegląd uporządkowanej taksonomii głębokich technik uczenia się do tworzenia napisów do obrazów, w tym tematy takie jak mechanizmy uwagi, taktyki uczenia się przez wzmacnianie i ramy enkoder-dekoder. Obok rozwiązywania problemów takich jak halucynacje obiektów i zrozumienie kontekstowe, omawia również często używane zbiory danych i kryteria oceny. Autorzy wskazują obszary dalszych badań, takie jak ulepszanie techniki pre-trenowania wizji i języka oraz zmniejszenie uprzedzenia w zbiorach danych. Zaproponowano podejście do analizy semantycznej oparte na konwolucyjnych sieciach neuronowych i rekurencyjnych sieciach neuronowych do zadań tworzenia napisów do obrazów⁷. Tworzenie napisów do obrazów jest jednym z najbardziej znanych zastosowań, pozwalającym komputerom tworzyć sugestywne frazy, które streszczają obraz. Aby zapewnić wysokiej klasy, znaczące semantyczne opisy, procedura ta obejmuje więcej niż tylko identyfikację obiektów i scen; wiąże się również z badaniem ich stanów, cech i interakcji. Pomimo wrodzonej złożoności i trudności w tworzeniu napisów do obrazów, naukowcy osiągnęli imponujące postępy w tej dziedzinie. Trzy główne techniki tworzenia napisów do obrazów oparte na głębokich sieciach neuronowych omówione w tej pracy to oparte na CNN-RNN, oparte na CNN-CNN i ramy uczenia się przez wzmacnianie. Wprowadzono uczący się model końcowo-końcowy do tworzenia napisów do obrazów, integrując widzenie komputerowe i przetwarzanie języka naturalnego w celu generowania spójnych opisów obrazów⁸. Aby stworzyć napis, używa on ramki enkoder-dekoder, w której LSTM dekoduje obraz na ciąg słów po zakodowaniu go przez wstępnie przeszkolony CNN w wektor cech. Pomimo jego wad,

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Implementacja została przeprowadzona z głównym modelem, którym jest ResNet-152, wraz z Koderem jako CNN, Decoderem jako RNN oraz zasobami z Tabeli Materiałów.

ResNet-152
ResNet jest uważany za bazę do wydajniejszego wyodrębniania funkcji w kapslowaniu obrazów. ResNet zapewnił lepszą wydajność treningu niż inne modele, ponieważ rozwiązał problem znikających gradientów i wydajnie go rozwiązał. W obrazach mogą pojawiać się różne obiekty, a model musi zrozumieć ich relacje, aby zapewnić lepsze kapslowaniu. Dlatego można go uznać za hierarchiczne wyodrębnianie funkcji. ResNet-152 może radzić sobie ze złożonymi zadaniami widzenia komputerowego. Kluczową zaletą tego modelu jest efektywne wykorzystanie połączeń resztkowych lub pomijających. Jest on wysoce efektywny w rozwiązywaniu problemu znikających gradientów. Może uczyć się złożonych, wytrzymałych funkcji, aby osiągnąć wyższą dokładność. ResNet-152 zastosował projekt z wąską szyjką, który zmniejszył koszt obliczeniowy i sprawił, że był bardziej efektywny niż inne architektury, takie jak VGG-16. Posiada wybitny trwały trzon podatny na wstępnie przeszkolone modele i różne zadania, takie jak wykrywanie obiektów i segmentacja danych. Połączenie pomijające przyspieszyło trening i sprawia, że jest bardziej stabilny. W porównaniu z modelem opartym na transformatorze, który wykorzystuje mechanizm samouważania do zrozumienia sekwencyjnych danych, ResNet jest zupełnie inny. Model oparty na transformatorze wymaga dużej ilości danych do głębokiego zrozumienia danych tekstowych, dając efektywne wyniki, ale działając nieco wolniej. Motywacją do wyboru ResNet są jego połączenia pomijające, które przyspieszają wykonanie z znaczną poprawą wyników. W dziedzinie kapslowaniu obrazów ResNet jest używany do wyodrębniania funkcji reprezentujących obiekt i wykonaną akcję na obrazie. ResNet wykorzystał sieć resztkową, która wykorzystała połączenia pomijające. Tutaj blok resztkowy można obliczyć z odniesieniem do wejścia Z jako:

Równanie 5 (5)

Gdzie Z jest uważany za wejście zblokowanego resztkowego.
Równanie 6 to resztkowa funkcja, która obejmuje normalizację wsadową, warstwy składowe i aktywację ReLu. {x_i} jest uważany za wagę uczenia się odpowiednich warstw. Z definiuje również tożsamość połączenia pomijającego, która również rozwiązuje problem znikających gradientów. ResNet jest ogólnie używany jako ekstrakcja funkcji do mapowania funkcji wizualnych z obrazów. Tutaj I jest uważany za wejściowy obraz do reprezentacji map funkcji w wysoką reprezentację wizualną V.

Równanie 8 (6)

Przed wyodrębnieniem funkcji, obraz musi być przetworzony, aby poprawić wyodrębnianie funkcji. Jest uważany za surowy obraz zebrany z ławki MSCOCO, więc pierwszym krokiem przetwarzania jest przeskalowanie i normalizacja.

Równanie 9 (7)

Równanie 10 (8)

Gdzie H^lto wysokość obrazu i W^l to waga obrazu. I_resize to przeskalowany obraz.

Aby normalizować wartość pikseli z zakresu [-1, 1] lub [0, 1]

Równanie 15 (9)

Gdzie μ jest uważany za wartość średnią pikseli σ jest uważany za odchylenie standardowe referencyjnego obrazu. Znormalizowany obraz jest teraz dalszy przetwarzany do wyodrębniania funkcji.

Równanie 18 (10)

Gdzie Równanie 19 uważany za wektor funkcji. Gdy wierszowy napis jest tokenizowany, jest on konwertowany na format numeryczny.

Równanie 20 (11)

Jeśli napis podzieli się na słowa, to

figure-protocol-10

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Specyfikacje oprogramowania i środowiska
Językiem głównym wykorzystywanym w eksperymentach był Python 3.10. Do konfiguracji środowiska programistycznego użyto Visual Studio Code (VS Code). Ważne biblioteki użyte w tym badaniu obejmują Pickle do serializacji danych, multiprocessing do przetwarzania równoległego, glob do obsługi plików i PyTorch do tworzenia modeli uczenia głębokiego. Konfiguracja sprzętowa obejmowała 256 GB pamięci masowej, 8 GB pamięci RAM i kartę graficzną serii NVIDIA GTX z obsług...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Na polu sztucznej inteligencji, podpisywanie obrazów jest trudnym zadaniem. Podpisywanie obrazów było przedmiotem licznych badań, a ostrze lub precyzyjne podpisywanie nadal wymaga najwyższego poziomu precyzji. Aby osiągnąć cel podpisywania obrazów, można zastosować wiele technik uczenia maszynowego, a liczne badania wykorzystały CNN, RNN i ResNet-152. Jednak konieczne jest zwiększenie precyzji i zmniejszenie czasu przetwarzania. Proponowany system został zbudowany z wykorzystaniem CNN jako kodera, RNN jako dekodera, Torc...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy deklarują, że nie mają żadnych konkurencyjnych interesów finansowych ani osobistych relacji, które mogłyby wpłynąć na prace zgłoszone w niniejszym artykule.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wyrażamy uznanie dla twórców zestawów danych MSCOCO za dostarczenie punktów odniesienia wykorzystanych w niniejszym badaniu. Autorzy deklarują, że na niniejsze badanie nie otrzymali żadnego zewnętrznego finansowania.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	Seria AMD Ryzen 5000 to linia wysoko wydajnych procesorów opracowana przez AMD, oparta na architekturze Zen 3. Procesory te są szeroko stosowane w komputerach stacjonarnych i laptopach zarówno do ogólnego przeznaczenia, jak i wymagających zadań, takich jak przetwarzanie danych i przepływy pracy związane z uczeniem maszynowym.
GPU	NVIDIA	4.71933E+12	NVIDIA GeForce GTX to seria jednostek graficznych (GPU) opracowanych przez NVIDIA, szeroko stosowanych do gier, a także ogólnego przeznaczenia do zadań obliczeniowych, takich jak głębokie uczenie i przetwarzanie obrazów.
Intel Core i5	Intel	BX8071514400F	Intel Core i5 to seria procesorów klasy średniej opracowana przez Intel, szeroko stosowana w komputerach osobistych zarówno do ogólnego przeznaczenia, jak i zadań obliczeniowych.
Python 3.10	Python Software Foundation	PEP 619	Python to język programowania na wysokim poziomie, interpretowany, szeroko stosowany w obliczeniach naukowych, analizie danych i uczeniu maszynowym. Jest znany ze swej prostoty, czytelności i rozległego ekosystemu bibliotek.
PyTorch	Facebook	26.03-py3	PyTorch to open-source'owy framework do uczenia głębokiego opracowany przez Meta Platforms (dawniej Facebook), szeroko stosowany do budowania i trenowania sieci neuronowych w badaniach i przemyśle.
Visual Studio Code	Microsoft	None	Visual Studio Code (VS Code) to lekki, open-source'owy edytor kodu opracowany przez Microsoft. Jest szeroko stosowany do rozwoju oprogramowania, w tym projektów związanych z uczeniem maszynowym i głębokim.
Windows 11	Microsoft	KB5083631	Windows 11 to system operacyjny opracowany przez Microsoft, szeroko stosowany do ogólnego przeznaczenia, a także do zadań związanych z rozwojem oprogramowania i uczeniu maszynowym.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Generowanie napisów obrazowych za pomocą podejść do głębokiego uczenia się

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles