Protokół ten wykorzystuje CNN, RNN i ResNety do podpisów obrazów, wydobywając opisy aktywności, osób, obiektów i innych elementów obrazów. Zostało to uzasadnione wynikami metryk BLEU, CIDEr, METEOR i ROUGE.
Research Article
June 12th, 2026
Protokół ten wykorzystuje CNN, RNN i ResNety do podpisów obrazów, wydobywając opisy aktywności, osób, obiektów i innych elementów obrazów. Zostało to uzasadnione wynikami metryk BLEU, CIDEr, METEOR i ROUGE.
Generowanie podpisów pod zdjęciami to przedsięwzięcie mające na celu zapewnienie znaczącego opisu tekstowego, który obejmuje obraz. Wyodrębnione informacje są istotne dla działań obecnych na obrazach. ResNet (Sieć Rezydualna) jest dobrze znana ze swojej zdolności do klasyfikacji obrazów, rozwijając głębokie reprezentacje hierarchiczne. Celem niniejszej pracy jest wykorzystanie ResNet z różnymi inteligentnymi filtrami do głębszej klasyfikacji obrazów, umożliwiając generowanie autentycznych i znaczących opisów, które są bardzo precyzyjne względem podpisów referencyjnych. Tutaj praca wykorzystuje inteligentną technikę filtrowania do ulepszania obrazów, CNN do kodowania cech, trenowanie modelowania, a następnie RNN (Rekurentową Sieć Neuronową) do dekodowania cech. ResNet jest bardzo skutecznym modelem do zadań widzenia komputerowego, zwłaszcza klasyfikacji obiektów i analizy semantycznej. ResNet jest dobrze znany z połączeń rezydualnych, które znane są również jako połączenia pomijające, rozwiązujące problem znikającego gradientu, będącego kluczowym problemem w głębokim uczeniu. Tutaj do trenowania modelu używa się benchmarku MSCOCO (Microsoft Common Object in Context), który jest dużym zbiorem danych z przypisami referencyjnymi przydatnymi do różnych zadań widzenia komputerowego. ResNet pomaga zwiększyć możliwości uogólniania, co jest szczególnie przydatne dla różnorodnych obrazów. Zgodnie z uzyskanymi wynikami, wyniki BLUE to B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEOR: 0,195; CZERWIENI: 0,396; oraz CIDEr: 0,6.
W dziedzinach widzenia komputerowego i przetwarzania języka naturalnego podpisy do obrazów są kluczowym zadaniem, które pozwala wydobyć opis obrazu i przedstawianych przez niego działań. Celem modelu jest zrozumienie obrazów i przetłumaczenie informacji na znaczące zdania lub podpisy1. Cała procedura składa się z dwóch istotnych faz: pierwszą jest ekstrakcja cech, w której stosuje się model CNN; druga to opis obrazu z użyciem RNN i pomiędzy, ResNet służy do analizy semantycznej, generowania sekwencji oraz mechanizmu uwagi. ResNet bardzo różni się od metod opartych na szablonach czy modułów opartych na DenseNet, ponieważ wykorzystuje połączenia skip, które skracają czas wykonywania i poprawiają wydajność. Istnieje wiele zastosowań podpisów do zdjęć, w tym pomocy osobom niedowidzącym, wspierania platform mediów społecznościowych, optymalizacji wyszukiwarek opartych na obrazach, sztucznej inteligencji opartej na obrazachi wielu innych 2.
W widzeniu komputerowym rozpoznawanie scen to proces identyfikacji i klasyfikacji ogólnego kontekstu lub środowiska obrazu, takiego jak plaża, panoramy miasta, las czy biuro. W przeciwieństwie do rozpoznawania obiektów, które koncentruje się na pojedynczych przedmiotach, rozpoznawanie scen uwzględnia tekstury, układy przestrzenne i relacje obiektów, aby zrozumieć szerszy kontekst. Wykorzystuje CNN i Vision Transformers, modele głębokiego uczenia trenowane na dużych zbiorach danych, takich jak Places365 i ImageNet. Zastosowania obejmują nadzór bezpieczeństwa, rozszerzoną i wirtualną rzeczywistość (AR i VR) dla immersyjnych doświadczeń, robotykę dla świadomości ekologicznej oraz pojazdy autonomiczne do nawigacji. Pomimo postępu, problemy takie jak zmieniające się punkty widzenia, zasłony i zmieniające się oświetlenie sprawiają, że rozpoznawanie scen jest gorącym tematem w badaniach nad widzeniem komputerowym i sztuczną inteligencją. Kolejnym fundamentalnym problemem w widzeniu komputerowym jest rozpoznawanie scen.
EnsCaption, model sieci adwersarnej z podwójnym generatywnym charakterem, został zaproponowany w celu ulepszenia techniki zespołu generowania–wyszukiwania3. Taki układ umożliwia harmonijne, oparte na prokreacji metody tworzenia podpisów do obrazów, które generują podpisy zgodne z istniejącymi celami. Natomiast technika oparta na wyszukiwaniu wykorzystuje model oparty na pozycji lub gradacji, aby precyzyjniej wybrać najlepszy model do wydobycia informacji niż pozostałe w zapytaniu opartym na obrazach. Wprowadzono mapowanie obrazów na "przestrzeń znaczeń" za pomocą komponentów wizualnych, takich jak obiekty, aktywności i sceny, które następnie były wyrównywane z odpowiadającymi szablonami werbalnymi4. Wykorzystując korelacje i cechy widoczne na obrazach, podejście konstruuje frazy. Zdania wyrażają informacje w bogaty, skondensowany i subtelny sposób. Generowanie podpisów opartych na szablonach zostało ulepszone poprzez uwzględnienie zdroworozsądkowej wiedzy w celu poprawy zrozumienia semantycznego5. Technika ta rozszerzyła zasięg szablonu poza bezpośrednie cechy obrazu, obejmując wnioskowane powiązania. Praca ta wykorzystuje istniejący zbiór danych wykrywania obiektów do wyodrębnienia 16 000 zdroworozsądkowych instrukcji dla każdej oznaczonej kategorii. Dodatkowo uogólnienia osiągnięto za pomocą WordNet, co umożliwiło indukcję dużej liczby faktów dotyczących wcześniej niewidzianych obiektów6. Oferuje przegląd zorganizowanej taksonomii technik głębokiego uczenia do tworzenia napisów obrazów, obejmując takie tematy jak mechanizmy uwagi, taktyki uczenia ze wzmocnieniem oraz ramy enkodera-dekodera. Oprócz poruszania takich zagadnień jak halucynacje obiektowe i zrozumienie kontekstowe, bada także powszechnie używane zbiory danych i kryteria oceny. Autorzy wskazują obszary wymagające dalszych badań, takie jak ulepszanie technik pre-treningu języka wzroku oraz redukcja błędów w zbiorze danych. Dla zadań podpisów do obrazów (7) badane było podejście analizy semantycznej oparte na splotowych sieciach neuronowych i sieciach rekurencyjnych. Podpisy do obrazów to jedno z najbardziej znanych zastosowań, pozwalające komputerom tworzyć sugestywne frazy otaczające obraz. Aby dostarczyć wysokiego, znaczącego opisu semantycznego, procedura ta obejmuje więcej niż tylko identyfikację obiektów i scen; Obejmuje to także badanie ich stanów, cech i interakcji. Pomimo złożoności i trudności w podpisach do zdjęć, naukowcy osiągnęli imponujące postępy w tej dziedzinie. Trzy główne techniki podpisów do obrazów oparte na głębokich sieciach neuronowych omawiane w tym badaniu to ramy oparte na CNN-RNN, CNN-CNN oraz uczenie ze wzmocnieniem. Wprowadzono kompleksowy, trenowalny model podpisów do obrazów, integrujący widzenie komputerowe i przetwarzanie języka naturalnego, aby generować spójne opisy obrazów8. Aby stworzyć podpis, używa się ramy encoder-decoder, w której LSTM dekoduje obraz na ciąg słów po tym, jak wcześniej wytrenowane CNN zakoduje go do wektora cech. Pomimo wad, w tym trudności z zawiłymi sceneriami, wkład artykułu w zadania językowe wzrokowe jestnadal kluczowy.
ResNet to konwolucjonalna sieć neuronowa (CNN) używana w proponowanym modelu podpisów do obrazów do wydobycia bogatych informacji wizualnych z obrazów wejściowych. ResNet służy jako enkoder do generowania wektora cech reprezentującego obraz, który jest zwykle używany w architekturze enkoder-dekoder. Dekoder, który generuje opisowe napisy słowo po słowie, otrzymuje te funkcje i często jest implementowany za pomocą sieci neuronowej rekurencyjnej (RNN), takiej jak LSTM lub GRU. Można dodać mechanizm uwagi, aby poprawić wydajność, umożliwiając dekoderowi skupienie się na określonych obszarach obrazu podczas generowania każdego słowa. Aby zmaksymalizować dokładność podpisów, model jest trenowany endto-end przy użyciu funkcji straty, takiej jak entropia krzyżowa, oraz zbioru danych takiego jak COCO. Transfer learning i dopracowywanie ResNet mogą usprawnić wyodrębnianie cech, dodatkowo wzmacniając model i umożliwiając tworzenie wysokiej jakości, kontekstowo odpowiednich podpisów na szerokim zakresie obrazów. W podpisach obrazowych ResNet jest często preferowany nad innymi modelami, ponieważ skutecznie rozwiązuje problem znikającego gradientu, powszechny problem w głębokich sieciach neuronowych. Jest to możliwe dzięki nowatorskim podejściom do uczenia rezydualnego, które trenują znacznie głębsze sieci bez utraty wydajności poprzez wykorzystanie połączeń skip do ułatwienia przepływu gradientowego podczas propagacji wstecznej. Wielowarstwowy perceptron, w pełni połączona sieć neuronowa z przezwyciężeniem w przyszłości, jest powiązany z warstwą treningową. RNN następnie dekoduje napisy za pomocą warstwy softmax, tworząc kandydujące napisy. Funkcja aktywacji to f(x), funkcja identyczności do przodu to f(x) + x, a x jest traktowane jako tożsamość, co ilustruje Rysunek 1. W tym przypadku system używa bloków resztkowych do kalibracji modelu podczas treningu, a jego wejścia przechodzą zarówno przez połączenia wagowe, jak i pomijające, zwane także skrótami tożsamościowymi.

Rysunek 1: Sieć połączeń rezydualnych. Ten rysunek ilustruje architekturę sieci rezydualnej, podkreślając połączenia pomijające, które poprawiają przepływ gradientu i łagodzą zanikanie gradientów podczas treningu sieci głębokiej. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Załóżmy, że Pl jest wyjściem; L jest numerem. bloków resztkowych; ReLU ma być zwykłym blokiem, jeśli jest bliski 1, ale jeśli nie jest równy 1, można go obliczyć jako:
(1)
Tutaj b jest zmienną losową, a k funkcją odwzorowania.
(2)
Tutaj sl jest traktowane jako prawdopodobieństwo przetrwania dla proponowanego układu;
(3)
Otrzymana reguła prawdopodobieństwa przeżycia jako:
(4)
Gdzie SL ma zapewnić przeżycie prawdopodobieństwa, a L to całkowite numer. bloków.
Podpisy do obrazów to wymagające zadanie, które łączy przetwarzanie języka naturalnego z widzeniem komputerowym, aby tworzyć opisowe podpisy tekstowe do obrazów. Aby to osiągnąć, należy zrozumieć i zinterpretować wizualną treść obrazu oraz przetłumaczyć ją na spójne zdania w jego kontekście. W tej dziedzinie posiadanie rozbudowanych i zróżnicowanych zbiorów danych jest kluczowe dla oceny i treningu modeli. Te zbiory danych oferują szeroką gamę obrazów i powiązanych adnotacji, które są kluczowe przy opracowywaniu i testowaniu algorytmów podpisów do obrazów. Najczęściej używane zbiory danych to MSCOCO i Flickr30k, które zawierają miliony obrazów i stawiają różne wyzwania w przetwarzaniu obrazów. MSCOCO jest znacznie większy niż Flickr30k11. Zbiór danych MS COCO został podzielony na następujące zestawy: 82 783 obrazy do treningu, 40 504 do walidacji oraz 40 775 do testów.
Implementacja została przeprowadzona za pomocą głównego modelu, czyli ResNet-152, wraz z enkoderem jako CNN, dekoderem jako RNN oraz zasobami z Tabeli Materiałów.
ResNet-152
ResNet jest uważany za szkielet efektywniejszego wyodrębniania cech w podpisach obrazów. ResNet zapewniał lepszą wydajność treningową niż inne modele, ponieważ rozwiązał problem znikającego gradientu i efektywnie go rozwiązał. Na obrazach mogą pojawić się różne obiekty, a model musi zrozumieć ich relacje, aby lepiej dodać napisy. Dlatego można ją uznać za hierarchiczną ekstrakcję cech. ResNet-152 potrafi obsługiwać złożone zadania związane z widzeniem komputerowym. Kluczową zaletą tego modelu jest efektywne wykorzystanie połączeń rezydualnych lub pomijanych. Jest bardzo skuteczny w rozwiązywaniu problemu zanikającego gradientu. Może uczyć się złożonych, solidnych cech, aby osiągnąć większą dokładność. ResNet-152 zastosował wąskie gardło, które zmniejszało koszty obliczeniowe i czyniło go bardziej efektywnym niż inne architektury, takie jak VGG-16. Posiada charakterystyczny szkielet uczenia transferowego, odpowiedni dla modeli wstępnie wytrenowanych oraz różnorodnych zadań, takich jak wykrywanie obiektów i segmentacja danych. Połączenie z przeskokiem przyspieszyło trening i uczyniło go bardziej stabilnym. W porównaniu do modelu opartego na transformatorze, który wykorzystuje mechanizm samouwagi do rozumienia danych sekwencyjnych, ResNet jest zupełnie inny. Model oparty na transformatorze wymaga dużej ilości danych, aby głęboko zrozumieć dane tekstowe, co daje skuteczne wyniki, ale jest nieco wolniejsze. Motywacją wyboru ResNet są jego połączenia skip, które przyspieszają wykonanie i znacząco poprawiają wyniki. W dziedzinie podpisów do obrazów ResNet służy do wyodrębniania cech reprezentujących obiekt oraz działanie wykonane na obrazie. ResNet korzystał z sieci rezydualnej wykorzystującej połączenia skip. Tutaj blok resztowy można obliczyć z odniesieniem do wejścia Z jako:
(5)
Gdzie Z jest traktowane jako wejście bloku resztkowego.
jest funkcją resztkową obejmującą normalizację wsadową, warstwy splotowe oraz aktywację ReLu. {xi} jest uznawany za ciężar uczenia odpowiadających warstw. Z definiuje także tożsamość połączenia pomijającego, która rozwiązuje problem gradientu znikającego. ResNet jest zazwyczaj używany jako ekstraktor cech do wizualnego mapowania cech na podstawie obrazów. Tutaj I jest traktowany jako obraz wejściowy do reprezentacji odwzorowań cech w wysokiej wizualnej reprezentacji V.
(6)
Przed wyodrębnieniem cech obraz musi zostać wstępnie przetworzony, aby poprawić wyodrębnianie cech. Jest on traktowany jako surowy obraz zebrany z benchmarku MSCOCO, więc pierwszym krokiem w preprocessing jest jego zmiana rozmiaru i normalizacja.
(7)
(8)
Gdzie Hl to wysokość obrazu, a Wl to waga obrazu. I resized to zmieniony rozmiar obrazu.
Aby normalizować wartość piksela z zakresu [-1, 1] lub [0, 1]
(9)
Gdzie μ jest uważana za średnią wartości piksela σ jest traktowana jako odchylenie standardowe cytowanego obrazu. Obraz znormalizowany jest teraz dalej przetwarzany w celu wyodrębnienia cech.
(10)
Gdzie
który jest traktowany jako wektor cech. Gdy podpis wiersza jest tokenizowany, jest on konwertowany na format numeryczny.
(11)
Jeśli podpis rozdziela się na słowa, to
(12)
Tutaj słownictwo odgrywa ważną rolę, ponieważ każde słowo jest jednoznacznie identyfikowane przez indeksowanie oparte na liczbach całkowitych.
(13)
Gdzie Vc jest traktowane jako funkcja słownictwa; trzeba zapewnić, że wszystkie sekwencje mają równą długość; więc maksymalna wysokość lub idealna długość jest traktowana jako L max.
(14)
Teraz tokeny są osadzane jako;
(15)
dla j = 1,2,3, ... .., L max
Gdzie
jest traktowany jako wektor osadzony o K wymiarach; teraz dekoder ma być użyty do dekodowania podpisu kandydata na generowanie podpisów, który opiera się na modelu probabilistycznym.
(16)
Gdzie wj jest dziełem o znaczniku czasu j, w1: j-1 to wygenerowane słowo o znaczniku j-1, a ej-1 to cecha osadzona z poprzednim słowem wj-1. Przy każdym znaczniku czasu sieć przewiduje kolejne słowo lub prawdopodobieństwo jest obliczane na podstawie słownictwa.
(17)
Gdzie w wyjściowa to waga wyjściowa, a b wyjście to polaryzacja wyjściowa. Zatem maksymalne prawdopodobieństwo oblicza się jako
(18)
Maksymalna długość kandydata do podpisu jest obliczana po otrzymaniu lub zidentyfikowaniu słowa jako specjalny token, taki jak i . Wyszukiwanie wiązkowe jest również przydatne do wyboru lepszego kandydata pod napis, więc sekwencja jest następująca:
(19)
(20)
Zatem wygenerowany podpis kandydata to ciąg 
Długa pamięć krótkotrwała jest zazwyczaj stosowana przy generowaniu sekwencji. LSTM wykorzystuje CNN jako ekstraktor cech i generuje słowa sekwencyjnie, tworząc znaczące zdania. LSTM oblicza bramkę zapomnienia przy każdym znaczniku czasowym T.

Gdy ft jest traktowane jako bramka zapomnienia, σ jako funkcja aktywacji, wf jako waga, a bf jako polaryzacja,
yt traktowane jest jako wektor cech wejściowych, ht-1 jako stan ukryty.
(22)
(23)
Jt jest traktowane jako wejście,
jako stan kandydacyjny, wj i wc jako waga dla stanu wejściowego i stan kandydacyjny, bj ib c lub jako bias.
(24)
Ct jest traktowany jako każdy stan, Ct-1 jako stan poprzedni.
(25)
Ot jest traktowane jako wyjście, w o jako waga, a bo jako polaryzacja. Aby zainicjować stany ukryte i komórkowe, wymagane są następujące obliczenia.
(26)
(27)
Gdzie hi i C i są traktowane odpowiednio jako stan ukryty i komórki, wh i wc to wagi dla stanu komórki ukrytej i żagle, bc i b h jako bias, k jako ekstraktor cech. Sekwencja podpisu oblicza się jako:
(28)
Gdzie T to długość wygenerowanego podpisu.
254 × 254 × 3 to obraz powielony lub wstępnie przetworzony, a I jest traktowany jako obraz wejściowy.
(29)
Tam, gdzie W i b są traktowane odpowiednio jako waga i polaryzacja, I jako cechy wejściowe, a ReLU jako funkcja aktywacji. Jest to obliczenie warstwy splotowej. Teraz warstwę poolingu można obliczyć jako:
(30)
Po finalizacji warstwy poolingu; W pełni połączoną warstwę można odwzorować jako:
(31)
Gdzie wf i bf są traktowane odpowiednio jako waga i polaryzacja sieci.
(32)
(33)
Gdzie N jest traktowane jako obszar przestrzenny, a d jako wymiar cechy.
(34)
(35)
Gdzie wh i bh są traktowane odpowiednio jako waga i bias stanu ukrytego, odpowiednio wc i bc jako waga i polaryzacja stanu komórki. Podpis można wygenerować jako:
(36)
Koder i dekoder
Proponowany system koduje dane do tłumaczenia maszynowego za pomocą CNN. W tym przypadku zarówno wejście, jak i wyjście są sekwencją, ale mogą różnić się długością. Maszyna koduje i dekoduje każdy wektor po kolei. Używając wektora jako punktu wyjścia, maszyna zaczyna kodować i dekodować, a następnie kontynuuje obliczenia aż do ostatecznego warunkowego rozkładu prawdopodobieństwa. Przykładem jest następujący:
(37)
To jest traktowane jako rozkład prawdopodobieństwa.
System może kodować dane w formie obrazu wektorowego, a następnie można je odkodować. fcn (I) jest uważany za model obrazu do rozumienia obrazu.
(38)
(39)
(40)
S1 to kolejna iteracja S0, a S2 to kolejna iteracja S1. Można powiedzieć, że każde wejście zależy od wyjścia poprzedniej warstwy. Obrazy są konwertowane na wektory przez CNN i przesyłane do kolejnej warstwy, która przechodzi przez wszystkie wektory. Tutaj mechanizm uwagi służy do kolejnego uporządkowania słów w znaczące zdanie po tym, jak RNN rozszyfruje wektory na słowa.
(41)
Gdzie T to długość wejścia.
(42)
(43)
k1, k 2, k3, k4, ......, k t-1 to stany dekodowania ukrytego.

Rysunek 2: Model kodowania i dekodowania. Ten rysunek przedstawia ramy encoder–decoder używane do podpisów obrazów, pokazując, jak cechy obrazów są kodowane w reprezentacjach wektorowych, a następnie dekodowane w sekwencyjnych opisach tekstowych. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Model procesu
Zobacz Rysunek 3, który przedstawia schemat blokowy modułów treningowych, gdzie zbiór danych oraz jego podpisy z faktami były ładowane jako pierwsze. Po znormalizowaniu danych do kodowania CNN, model ResNet jest inicjalizowany i trenowany na podstawie wyodrębnionych cech. RNN oraz specyficzne dla systemu słowa oznaczone znacznikami startu i końca mogą być następnie użyte do dekodowania podpisu. System kończy ekstrakcję, jeśli znaleziono ostatnie słowo, a N to całkowita liczba słów w podpisie kandydata.

Rysunek 3: Schemat przepływowy modelu treningowego. Ten rysunek przedstawia krok po kroku proces treningu modelu, w tym wstępne przetwarzanie danych, ekstrakcję cech, uczenie się modelu oraz optymalizację. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Schemat blokowy modelu testowego przedstawiono na Rysunku 4, gdzie system najpierw ładuje modele enkodera i dekodera, a następnie model ResNet oraz dane wejściowe do ekstrakcji napisów. Jeśli nie było żadnych błędów dekodowania, wnioskowanie można przeprowadzić od pierwszego słowa do ostatniego. Po osiągnięciu ostatniego słowa można uzyskać odszyfrowane słowa, a podpis można stworzyć poprzez zastosowanie mechanizmu uwagi, który sekwencyjnie układa słowa w znaczący sposób. Rozmiar wiązki modelu treningowego wynosi pięć, z maksymalną długością 20, a rozmiar partii to 128 z 20 epokami.

Rysunek 4: Schemat blokowy modelu testowego. Ten rysunek przedstawia proces testowania, pokazując, jak obrazy wejściowe są przetwarzane przez wytrenowany model w celu generowania podpisów i oceny wydajności. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Algorytm podpisów obrazów ResNet-152
Zainicjalizuj parametry wejściowe i wyjściowe, a tutaj wejście jest traktowane jako zbiór obrazów MSCOCO według I = (i1, i2, i3, ....... iN)wraz z adnotacją J = (j1, j2, j3, ......... jN)a wyjście jest obliczane jako napisy. W pierwszym kroku wymagane jest wejście, a następnie wstępne przetwarzanie obrazów, zmieniając proporcje obrazu jako
(44)
Gdzie w i h to oryginalna szerokość i wysokość obrazu, wnew i hnew to wymiary zmienione, Ts jest uważane za z góry zdefiniowany rozmiar celu (Ts = 224), max(w, h) definiuje największy wymiar, który został przeskalowany w celu zachowania proporcji obrazu.
Po wyodrębnieniu cech wymagane jest zadeklarowanie bloku tożsamości jako
(45)
Następnie inicjalizuj parametry takie jak rozmiar partii, liczba epok, Wukryte jako waga dla ukrytych warstw, W jako wyjście dla warstwy wyjściowej oraz wysokość B ,B bias jako bias. Po zakończeniu inicjalizacji konieczne jest obliczenie wyjścia warstwy splotowej.
(46)
Można go uznać za normalny blok ReLU, jeśli bl jest równoważne 1. Ale jeśli bl nie jest równe 1 ani równoważne 0, to byłoby tak;
(47)
Następnie oblicz wykonalność przetrwania przez
(48)
Gdzie FK jest traktowane jako wykonalność przetrwania systemu, a K jako całkowita liczba bloków w modelu. Następnie oblicz rozkład prawdopodobieństwa
(49)
Po obliczeniu rozkładu prawdopodobieństwa buduje się model, aby uzyskać do niego dostęp i odkodować dane.
/9500
k1, k 2, k3, k4, ......, kt-1 to stany dekodowania ukrytego.
Podczas uzyskiwania dostępu do modelu wymagane jest zastosowanie mechanizmów uwagi do generowania podpisów, które oceniają kandydata na podstawie podpisu referencyjnego; Ostateczne metryki można następnie ocenić za pomocą BLEU, METEOR, CIDEr i ROUGE.
Specyfikacje oprogramowania i środowiska
Głównym językiem programowania używanym do eksperymentów był Python 3.10. Do konfiguracji środowiska programistycznego (VS Code) użyto kodu Visual Studio. Ważne biblioteki wykorzystywane w tych badaniach to Pickle do serializacji danych, multiprocesor do przetwarzania równoległego, glob do obsługi plików oraz PyTorch do tworzenia modeli uczenia głębokiego. Konfiguracja sprzętowa obejmowała 256 GB pamięci, 8 GB RAM oraz GPU serii NVIDIA GTX z obsługą CUDA dla szybszych obliczeń. Do eksperymentów użyto komputera z procesorem AMD Ryzen 5000 lub Intel Core i5. System operacyjny był używany do implementacji Windows 10/11. Można to łatwo zrozumieć z tabeli specyfikacji środowiska w Tabeli 1.
| Materiał | Specyfikacja |
| GPU | Seria NVIDIA GTX |
| Biblioteki | PyTorch, Pickle, Multiprogramming, Glob |
| OS | Windows 10/11 |
| Procesor | Intel Core i5/AMD Ryzen 5000 serii |
| Programy | Python 3.10 |
| RAM | 8 GB |
| Oprogramowanie | Visual Studio Code |
| Przechowywanie | 256 GB |
Tabela 1: Specyfikacje środowiskowe. Ta tabela podsumowuje materiały użyte w implementacji oraz ich specyfikacje, takie jak języki programowania, biblioteki i specyfikacje sprzętowe.
Analiza jakościowa
Zgodnie z jakościową analizą modelu według różnych kategorii, takich jak sceny zewnętrzne i wewnętrzne oraz sceny proste i złożone, model jest nieco efektywniejszy w opisie obrazu. B1, B2, B3 i B4 są uznawane za wyniki BLEU. C jest uznawany za CIDEr, M to METEOR, a R za ROUGE. Dla każdej macierzy, gdzie B1 wynosi 0,579, B2 0,404, B3 0,279, B4 0,191, METEOR 0,195, ROUGE 0,396, a CIDEr 0,6, wynik jest reprezentowany jako 1, jak pokazano w Tabeli 2.
| Macierze | Wyniki MSCOCO |
| BLEU1 | 0.579 |
| BLEU2 | 0.404 |
| BLEU3 | 0.279 |
| BLEU4 | 0.191 |
| METEOR | 0.195 |
| ROUGE | 0.396 |
| CIDEr | 0.6 |
Tabela 2: Wyniki eksperymentalne. Ta tabela podsumowuje wydajność proponowanego modelu z wykorzystaniem metryk ewaluacyjnych takich jak BLEU, METEOR, ROUGE i CIDEr, zapewniając ilościową ocenę jakości podpisów.

Rysunek 5: Wynik eksperymentalny. Ten rysunek przedstawia graficzne przedstawienie metryk oceny, ilustrując porównawcze wyniki modelu w różnych miarach. Proszę kliknąć tutaj, aby zobaczyć większą wersję tej figurki.
Porównanie wyników przedstawiono w tabelach 3, 4 i 5. Poniższe odniesienia znajdują się w tabelach 3, 3 i 4:10,11,12,13,14
| Metoda | B1 | B2 | B3 | B4 |
| Face-CapF [10] | 0.5713 | 0.3651 | 0.2407 | 0.1652 |
| Face-Init [10] | 0.5663 | 0.3649 | 0.243 | 0.1686 |
| Face-CapL [11] | 0.589 | 0.3789 | 0.2507 | 0.1719 |
| Face-Step [10] | 0.5843 | 0.3756 | 0.2478 | 0.1696 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.6012 | 0.3992 | 0.2703 | 0.1921 |
| CNN+RNN+ResNet-152 (Propozycja) | 0.579 | 0.404 | 0.279 | 0.191 |
Tabela 3: Porównanie wyników dla wyników BLEU. Ta tabela porównuje wyniki wyników BLEU w różnych modelach lub konfiguracjach, aby podkreślić poprawę dokładności generowania podpisów.
Jak pokazano w tabelach 3 i 4, CSPDN-BiLSTM-SelfAtt12 radzi sobie lepiej na B1 i B4, podczas gdy CNN+RNN+ResNet-152 radzi sobie lepiej na B2 i B3. CNN+RNN+ResNet-152 jest lepszy niż METER i CIDEr, a nie ROUGE. Obie metody są równe pod względem wyników BLEU, ale proponowana jest lepsza od pozostałych dwóch metryk. Zatem ogólna przewaga w wyniku jest osiągana przez proponowaną metodę. Face-CapF10, Face-Init10, Face-CapL11, Face-Step10 wykonują podpisy obrazów na podstawie zbioru danych FlickrFace11K. Jednak wyniki są stosunkowo słabe, nawet jak na duży zbiór danych. Mimo że proponowany model ma znacznie wyższy wynik CIDEr, rozbieżność ta wynika z różnic w procedurze ewaluacji, przygotowaniu zbioru danych oraz szczegółach implementacji.
| Metoda | METEOR | CIDEr | ROUGE |
| Face-CapF [10] | 0.1719 | 0.2304 | 0.4476 |
| Face-Init [10] | 0.1717 | 0.2313 | 0.4484 |
| Face-CapL [11] | 0.1744 | 0.2472 | 0.4547 |
| Face-Step [10] | 0.1745 | 0.2283 | 0.4504 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.1932 | 0.2617 | 0.4793 |
| CNN+RNN+ResNet-152 (Propozycja) | 0.195 | 0.6 | 0.396 |
Tabela 4: Porównanie wyników względem METEOR, CIDEr i ROUGE. Ta tabela przedstawia porównawczą analizę wielu metryk ewaluacji w celu oceny semantycznej i składniowej jakości generowanych podpisów.
| Metoda | B1 | B2 | B3 | B4 | METEOR | ROUGE |
| Szablon-augmentacja [13] | 0.238 | 0.109 | 0.05 | 0.022 | 0.096 | 0.249 |
| EfficientNetB0 [14] | 0.2827 | 0.1325 | 0.0588 | 0.0266 | 0.2661 | 0.3609 |
| EfficientNetB1 [14] | 0.289 | 0.1404 | 0.0642 | 0.0286 | 0.271 | 0.3718 |
| ResNet50 [14] | 0.2637 | 0.1217 | 0.0496 | 0.0207 | 0.2437 | 0.3423 |
| MobileNetV2 [14] | 0.2106 | 0.064 | 0.0215 | 0.009 | 0.1794 | 0.2606 |
| CNN+RNN+ResNet-152 (Propozycja) | 0.579 | 0.404 | 0.279 | 0.191 | 0.195 | 0.396 |
Tabela 5: Porównanie wyników dla wyników BLEU, METEOR i ROUGE. Ta tabela przedstawia skonsolidowane porównanie kluczowych metryk oceny, aby wykazać ogólną skuteczność modelu.
Według Tabeli 5, EfficientNetB114 jest lepszy dla METEOR, ale CNN+RNN+ResNet-152 jest lepszy dla B1-B 4 i ROUGE. Ogólnie rzecz biorąc, proponowany wynik jest lepszy we wszystkich wskaźnikach BLEU i ROUGE w porównaniu do wymienionych metod.
DOSTĘPNOŚĆ DANYCH:
Wszystkie surowe dane i pliki kodowania związane z tym badaniem są dostępne w plikach uzupełniających.
W dziedzinie sztucznej inteligencji napisy obrazowe to trudne zadanie. Podpisy do obrazów były przedmiotem licznych badań, a precyzyjne lub precyzyjne napisy nadal wymagają najwyższej precyzji. Wiele technik uczenia maszynowego można wykorzystać do realizacji celu podpisywania obrazów, a liczne badania wykorzystywały CNN, RNN i ResNet-152. Jednak konieczna jest większa precyzja i skrócony czas przetwarzania. Proponowany system jest zbudowany z wykorzystaniem CNN jako enkodera, RNN jako dekodera, Torch Vision jako biblioteki oraz ResNet jako głównego modelu treningowego. ResNet wykorzystuje technikę pomijania połączenia, aby wykorzystać warstwy i osiągnąć lepszą wydajność w porównaniu z innymi konwencjonalnymi modelami, takimi jak Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2 i wieloma innymi 10,11,12,13,14.
Kluczowe kroki w proponowanej pracy to użycie inteligentnego filtra do usunięcia obrazów, a następnie ekstrakcja cech z wszystkimi podstawowymi krokami. Bez precyzyjnego wyodrębniania cech nie jest możliwe osiągnięcie celu modelu, a jeśli system nie wyodrębni cech poprawnie, to ulega temu poprawność wyników metrycznych. Faza treningowa, przeprowadzona z dogłębną analizą wektorów cech i mechanizmu uwagi, odegrała kluczową rolę w dekodowaniu danych testowych. W pracy jest też jeszcze jeden kluczowy etap, którym jest aktualizacja wokalu. Gdy podczas testowania danych pojawiają się nowe słowa, są one dodawane do słownika, aby poprawić wydajność modelu. Te kluczowe kroki odegrały kluczową rolę w osiągnięciu lepszej dokładności, która była wyższa niż w przypadku wcześniej sugerowanego modelu, takiego jak Metoda Augmentacji Szablonu. System wytrenował model do benchmarku MSCOCO i uzyskał skuteczniejszy model do podpisywania obrazów.
Jeśli rozmiar danych testowych wzrośnie, może być możliwe wprowadzenie nowych słów związanych z obrazami. Może to również powodować nieistotność podczas generowania podpisów, a następnie można to rozwiązać za pomocą mechanizmu uwagi, który został użyty w modelu. Słownictwo można aktualizować za pomocą mechanizmu uwagi, który może być skuteczny przy późniejszej ocenie. Można to uznać za samodzielne uczenie się lub obsługę wyjątków. Ponieważ model jest trenowany w MSCOCO, który zawiera tysiące rzeczywistych obrazów, pojawia się wiele obiektów, które trzeba aktualizować przy każdym wniosku.
Jedną z wad tej pracy jest to, że w porównaniu z współczesnymi zbiorami danych używanymi do treningu, model może radzić sobie gorzej na znacznie starszych obrazach, zwłaszcza czarno-białych lub niskiej jakości historycznych, ze względu na różnice w cechach wizualnych, kontraście i fakturze. Jeśli obrazy są słabej rozdzielczości, trudniej jest wyodrębnić precyzyjne cechy, a ResNet-152 może w tym przypadku pogorszyć fazę kodowania. Działa też słabo na zbyt wielu starszych obrazach, co oznacza, że pochodzą one z czasów starożytnych z powodu słabych lub uszkodzonych wektorów cech. Ograniczenia obejmują ocenę pojedynczego zbioru danych oraz brak wzajemnej weryfikacji.
W porównaniu z konwencjonalnymi podejściami, proponowany model jest lepszy, ponieważ usprawnia wyodrębnianie cech, a tym samym generowanie podpisów do obrazów. Inteligentne filtrowanie poprawia fazę ekstrakcji cech lub kodowania, co lepiej buduje model. ResNet-152 wykorzystuje także połączenia pomijające, które wykorzystują czas podczas treningu. Dzięki temu wykonanie jest znacznie szybsze niż w innych modelach, takich jak EfficientNetB014. Mechanizm uwagi jest również głównym czynnikiem poprawiającym wydajność modelu.
Technika ta może być stosowana w systemach wyszukiwania obrazów, automatycznym nadzorze oraz technologiach wspomagających osoby z wadami wzroku. Wraz z szybkim rozwojem sztucznej inteligencji konieczne jest ulepszenie systemu wyszukiwania obrazów, a ta technika może się do tego przyczynić. Dzięki temu modelu osoby niedowidzące mogą uzyskać wsparcie w postrzeganiu świata, tłumacząc go na mowę. Istnieje kilka ważnych i potencjalnych zastosowań podpisów do obrazów.
Autorzy deklarują, że nie mają konkurujących ze sobą interesów finansowych ani relacji osobistych, które mogłyby wpłynąć na prace opisane w tym artykule.
Dziękujemy twórcom zbiorów danych MSCOCO za dostarczenie benchmarków wykorzystanych w tym badaniu. Autorzy deklarują, że na to badanie nie otrzymano żadnego zewnętrznego finansowania.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| Seria AMD Ryzen 5000 | AMD | 100-1000000059WOF | AMD Ryzen 5000 Series to linia wysokowydajnych procesorów opracowanych przez AMD, opartych na architekturze Zen 3. Procesory te są szeroko stosowane w komputerach stacjonarnych i laptopach zarówno do obliczeń ogólnego przeznaczenia, jak i wymagających zadań, takich jak przetwarzanie danych i procesy uczenia maszynowego. |
| GPU | NVIDIA | 4.71933E+12 | NVIDIA GeForce GTX to seria procesorów graficznych (GPU) opracowanych przez firmę NVIDIA, szeroko wykorzystywanych do gier oraz do ogólnego przeznaczenia do zadań obliczeniowych, takich jak głębokie uczenie i przetwarzanie obrazów. |
| Intel Core i5 | Intel | BX8071514400F | Intel Core i5 to procesory ze średniej klasy opracowane przez firmę Intel, szeroko stosowane w komputerach osobistych zarówno do zadań ogólnego, jak i obliczeniowego. |
| Python 3.10 | Python Software Foundation | PEP 619 | Python to wysokopoziomowy, interpretowany język programowania, szeroko stosowany w obliczeniach naukowych, analizie danych i uczeniu maszynowym. Jest znana ze swojej prostoty, czytelności oraz rozległego ekosystemu bibliotek. |
| PyTorch | 26.03-py3 | PyTorch to otwartoźródłowy framework do głębokiego uczenia opracowany przez Meta Platforms (dawniej Facebook), szeroko wykorzystywany do budowania i trenowania sieci neuronowych w badaniach i przemyśle. | |
| Visual Studio Code | Microsoft | Brak | Visual Studio Code (VS Code) to lekki, otwartoźródłowy edytor kodu opracowany przez Microsoft. Jest szeroko wykorzystywany do tworzenia oprogramowania, w tym projektów uczenia maszynowego i głębokiego uczenia. |
| Windows 11 | Microsoft | KB5083631 | Windows 11 to system operacyjny opracowany przez Microsoft, szeroko stosowany do ogólnych obliczeń, a także do tworzenia oprogramowania i zadań uczenia maszynowego. |
Request permission to reuse the text or figures of this JoVE article
Request Permission