딥러닝 기법을 이용한 이미지 캡션 생성

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

딥러닝 기법을 이용한 이미지 캡션 생성

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 프로토콜은 CNN, RNN, ResNet을 활용하여 이미지 캡션을 작성하고, 이미지의 활동, 사람, 물체 및 기타 요소에 대한 설명을 추출합니다. 이는 BLEU, CIDEr, METEOR, ROUGE 지표 점수로 정당화되었습니다.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이미지 캡션 생성은 이미지를 포함하는 의미 있는 텍스트 설명을 제공하기 위한 노력입니다. 추출된 정보는 이미지에 존재하는 활동과 관련이 있습니다. ResNet(잔류 네트워크)은 이미지 분류 능력으로 잘 알려져 있으며, 심층 계층적 표현을 개발했습니다. 이 논문의 목적은 다양한 스마트 필터와 함께 ResNet을 사용하여 이미지를 더 깊이 분류하여, 참조 캡션에 대해 매우 정밀하고 진정성 있고 의미 있는 설명을 생성할 수 있도록 하는 것입니다. 이 연구에서는 스마트 필터링 기법을 사용해 이미지를 향상시키고, CNN을 이용해 특징을 인코딩하며, 모델 훈련을 수행하고, 이후 RNN(순환 신경망)을 사용해 특징을 해독합니다. ResNet은 특히 객체 분류와 의미 분석에 있어 컴퓨터 비전 작업에 매우 효과적인 모델입니다. ResNet은 잔차 연결(residual connections)으로 잘 알려져 있는데, 이는 딥러닝에서 중요한 문제인 사라짐 구배 문제를 해결하는 스킵 연결(skipping connections)으로도 알려져 있습니다. 여기서는 MSCOCO(Microsoft Common Object in Context) 벤치마크를 사용하여 모델을 학습시키는데, 이는 다양한 컴퓨터 비전 작업에 유용한 참조 주석이 포함된 대규모 데이터셋입니다. ResNet은 다양한 이미지에 특히 유용한 일반화 능력을 향상시킵니다. 결과에 따르면, BLUE 점수는 B1: 0.579, B2: 0.404, B3: 0.279, B4: 0.191입니다; 유성: 0.195; 루즈: 0.396; CIDEr: 0.6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

컴퓨터 비전과 자연어 처리 분야에서 이미지 캡션은 이미지와 그에 묘사된 행동에 대한 설명을 추출하는 중요한 작업입니다. 모델의 의도는 이미지를 이해하고 정보를 의미 있는 문장이나 캡션으로 번역하는 것입니다.¹. 전체 절차는 두 가지 중요한 단계로 구성됩니다: 첫 번째는 CNN 모델을 사용하는 특징 추출; 두 번째는 RNN을 이용한 이미지 설명이며, 그 사이에 ResNet은 의미 분석, 시퀀스 생성, 주의 메커니즘에 사용됩니다. ResNet은 실행 시간을 줄이면서 성능을 향상시키는 스킵 연결을 사용한다는 점에서 템플릿 기반 메서드나 DenseNet 기반 모듈과 매우 다릅니다. 시각 장애인 지원, 소셜 미디어 플랫폼 강화, 이미지 기반 검색 엔진 최적화, 이미지 기반 AI(인공지능) 등 이미지 캡션의 다양한 응용 분야가 있습니다.

컴퓨터 비전에서 장면 인식은 해변, 도시 경관, 숲, 사무실과 같은 이미지의 일반적인 맥락이나 환경을 식별하고 분류하는 과정입니다. 개별 물건에 초점을 맞춘 객체 인식과 달리, 장면 인식은 질감, 공간 배열, 객체 관계를 고려하여 더 큰 맥락을 이해합니다. CNN과 Vision Transformers, Places365, ImageNet 같은 대규모 데이터셋에서 학습된 딥러닝 모델을 사용합니다. 응용 분야로는 보안 감시, 몰입형 경험을 위한 증강 및 가상현실(AR 및 VR), 환경 인식을 위한 로봇공학, 내비게이션을 위한 자율주행차 등이 포함됩니다. 발전에도 불구하고, 시점 이동, 가림, 조명 변화와 같은 문제들은 컴퓨터 비전과 인공지능 연구에서 장면 인식을 뜨겁게 만듭니다. 컴퓨터 비전의 또 다른 근본적인 문제는 장면 인식입니다.

EnsCaption은 생성-검색 앙상블 기법을 개선하기 위해 제안된 이중 생성 적대적 네트워크 모델^입니다. 이 레이아웃은 기존 목표에 부합하는 자막을 생성하는 조화로운 번식 기반 이미지 캡션 방식을 가능하게 합니다. 검색 기반 기법은 위치 기반 또는 등급 기반 모델을 사용하여 이미지 기반 쿼리에서 다른 모델보다 더 정밀하게 정보를 추출하는 최적의 모델을 선택합니다. 객체, 활동, 장면과 같은 시각적 구성 요소를 사용하여 이미지를 '의미 공간'에 매핑하는 기능이 도입되었으며, 이에 대응하는 언어 템플릿과 정렬^{되었습니다.} 이미지에서 발견된 상관관계와 특성을 이용해 구문을 구성합니다. 문장은 정보를 풍부하고 압축되며 미묘하게 표현합니다. 템플릿 기반 캡션 생성은 상식적 지식을 통합하여 의미 이해를 향상시키는 데 도움이 되었습니다⁵. 이 기법은 템플릿의 범위를 단순한 이미지 특성을 넘어 추론된 연관성까지 확장했습니다. 이 연구는 기존 객체 탐지 데이터셋을 사용하여 주석이 달린 각 범주별로 16,000개의 상식 진술을 추출합니다. 또한 WordNet을 사용하여 일반화가 이루어져 이전에 못했^{던 객체들}에 대한 많은 사실을 유도할 수 있었습니다. 주의 메커니즘, 강화 학습 전술, 인코더-디코더 프레임워크 등 주제를 포함하여 이미지 캡션 기법의 체계적인 분류체계를 검토합니다. 객체 환각과 맥락 이해 같은 문제를 다루는 것과 함께, 일반적으로 사용되는 데이터셋과 평가 기준도 검토합니다. 저자들은 시각 언어 사전 학습 기법 개선과 데이터셋 편향 감소 등 추가 연구가 필요한 분야를 지적합니다. 합성곱 신경망과 반복 신경망을 기반으로 한 의미 분석 접근법이 이미지 캡션 작업에 대해 탐구되었습니다.⁷. 이미지 캡션은 가장 잘 알려진 활용법 중 하나로, 컴퓨터가 이미지를 포괄하는 감성적인 문구를 생성할 수 있게 합니다. 고수준적이고 의미 있는 의미 설명을 제공하기 위해 이 절차는 단순히 객체와 장면을 식별하는 것을 넘어서; 또한 이들의 상태, 특성, 상호작용을 검토하는 것도 포함됩니다. 이미지 캡션의 본질적인 복잡성과 어려움에도 불구하고, 학계는 이 분야에서 인상적인 진전을 이루었습니다. 이 연구에서 다루는 세 가지 주요 딥 뉴럴 네트워크 기반 이미지 자막 기법은 CNN-RNN 기반, CNN-CNN 기반, 그리고 강화 학습 프레임워크입니다. 컴퓨터 비전과 자연어 처리를 통합하여 이미지의 일관된 설명을 생성하는 종단 간 학습 가능한 이미지 캡션 모델이 도입되었습니다⁸. 캡션을 만들기 위해 LSTM이 사전 학습된 CNN이 특징 벡터로 인코딩한 후 이미지를 단어 문자열로 디코딩하는 인코더-디코더 프레임워크를 사용합니다. 복잡한 배경 설정에 대한 어려움 등 단점에도 불구하고, 이 논문의 시각 언어 과제에 대한 기여는 여전히 근본^{적입니다.}

ResNet은 제안된 연구의 이미지 캡션 모델에서 입력 이미지로부터 풍부한 시각 정보를 추출하기 위해 사용되는 합성곱 신경망(CNN)입니다. ResNet은 이미지를 나타내는 특징 벡터를 생성하는 인코더 역할을 하며, 이는 일반적으로 인코더-디코더 아키텍처에서 사용됩니다. 단어별 설명 자막을 생성하는 디코더는 이러한 기능을 받아 종종 LSTM이나 GRU와 같은 순환 신경망(RNN)을 사용하여 구현됩니다. 디코더가 각 단어를 생성할 때 이미지의 특정 영역에 집중할 수 있도록 주의 메커니즘을 추가하여 성능을 향상시킬 수 있습니다. 캡션 정확도를 극대화하기 위해, 모델은 교차엔트로피와 같은 손실 함수와 COCO와 같은 데이터셋을 사용하여 종단 간 학습을 진행합니다. 전이 학습과 ResNet 미세 조정은 특징 추출을 강화하여 모델을 더욱 강화하고 다양한 이미지에서 고품질의 맥락에 적합한 캡션을 생성할 수 있게 합니다. 이미지 캡션 분야에서는 ResNet이 딥 신경망에서 흔히 발생하는 사라짐 구배 문제를 효과적으로 해결하기 때문에 다른 모델보다 선호되는 경우가 많습니다. 이는 역전파 중 경배 흐름을 용이하게 하기 위해 스킵 연결을 사용함으로써 성능을 희생하지 않고 훨씬 더 깊은 네트워크를 훈련시키는 새로운 잔여 학습 접근법 덕분입니다. 다층 퍼셉트론은 완전 연결된 피드 포워드 신경망으로, 훈련 가능 계층과 연관되어 있습니다. RNN은 소프트맥스 계층을 사용하여 캡션을 디코딩하여 후보 캡션을 생성합니다. 활성화 함수는 f(x), 순방향 항등 함수는 f(x) + x이며, x는 항등으로 간주됩니다. 이는 그림 1에 나타났습니다. 이 경우 시스템은 잔여 블록을 사용해 학습 중 모델을 보정하며, 입력은 가중치 연결과 스킵 연결을 모두 통과합니다. 이들은 정체성 단축기라고도 합니다.

그림 1: 잔류 연결 네트워크. 이 그림은 잔류 네트워크의 구조를 보여주며, 딥 네트워크 훈련 중 구배 흐름을 개선하고 사라지는 구배를 완화하는 스킵 연결을 강조합니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.

P_l 을 출력이라고 가정하자; L은 번호입니다. 잔류 블록; ReLU는 1에 가까울 때 관습적인 블록이어야 하지만, 1이 아니면 다음과 같이 계산할 수 있습니다:

방정식 1 (1)

여기서 b는 확률 변수이고, k는 사상 함수이다.

방정식 2 (2)

여기서 s_l 은 제안된 시스템에서 생존할 확률로 간주됩니다;

방정식 3 (3)

생존 확률에 대한 결과적인 규칙은 다음과 같다;

방정식 4 (4)

여기서 S,_L 은 생존 확률을 나타내야 하며, L도 전체 노예에 대해 말해야 합니다. 블록 속 건물들.

이미지 캡션은 자연어 처리와 컴퓨터 비전을 결합해 이미지에 대한 설명적 텍스트 캡션을 생성하는 도전적인 작업입니다. 이를 위해서는 이미지의 시각적 내용을 이해하고 해석하여 그 맥락 내에서 일관된 문장으로 번역해야 합니다. 이 분야에서는 모델 평가와 훈련에 있어 방대하고 다양한 데이터셋을 갖추는 것이 매우 중요합니다. 이 데이터셋은 방대한 이미지와 관련 주석을 제공하여 이미지 캡션 알고리즘 개발과 테스트에 필수적입니다. 가장 자주 사용되는 데이터셋은 수백만 장의 이미지를 포함하고 있어 이미지 처리에 다양한 도전 과제를 제기하는 MSCOCO와 Flickr30k입니다. MSCOCO는 Flickr30k11보다 훨씬 큽니다. MS COCO 데이터셋은 학습용 82,783장, 검증용 40,504장, 테스트용 40,775장의 이미지 세트로 나뉘어 있습니다.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

구현은 메인 모델인 ResNet-152와 CNN으로의 인코더, RNN으로의 디코더, 그리고 재료표의 자원을 함께 사용해 이루어졌습니다.

ResNet-152
ResNet은 이미지 캡션에서 특징을 보다 효율적으로 추출하는 핵심 장치로 간주됩니다. ResNet은 사라지는 구배 문제를 해결하고 효율적으로 해결했기 때문에 다른 모델보다 더 나은 학습 성능을 제공했습니다. 다양한 물체가 이미지 내에 등장할 수 있으며, 모델은 더 나은 캡션을 위해 이들의 관계를 이해해야 합니다. 그래서 계층적 특징 추출으로 간주할 수 있습니다. ResNet-152는 복잡한 컴퓨터 비전 작업을 처리할 수 있습니다. 이 모델의 주요 장점은 잔류 또는 스킵 연결을 효과적으로 사용할 수 있다는 점입니다. 이 방법은 사라지는 경사 문제를 해결하는 데 매우 효과적입니다. 복잡하고 견고한 특징을 학습하여 더 높은 정확도를 달성할 수 있습니다. ResNet-152는 계산 비용을 줄이고, VGG-16과 같은 다른 아키텍처보다 더 효과적이게 하는 병목 설계를 따랐습니다. 사전 학습 모델과 객체 탐지, 데이터 분할 등 다양한 작업에 적합한 두드러진 전이 학습 중간을 가지고 있습니다. 스킵 연결 덕분에 훈련이 가속화되고 안정성도 높아졌습니다. 순차 데이터를 이해하는 데 자기 주의 메커니즘을 사용하는 트랜스포머 기반 모델과 비교할 때, ResNet은 상당히 다릅니다. 트랜스포머 기반 모델은 텍스트 데이터를 깊이 이해하기 위해 방대한 데이터가 필요하며, 효과적인 결과를 내지만 실행 속도가 다소 느립니다. ResNet을 선택한 동기는 실행 속도를 높이고 결과를 크게 향상시키는 스킵 연결 기능입니다. 이미지 캡션 분야에서는 ResNet이 객체와 이미지에서 수행된 동작을 나타내는 특징을 추출하는 데 사용됩니다. ResNet은 스킵 연결을 활용하는 잔류 네트워크를 사용했습니다. 여기서 잔차 블록은 입력 Z를 기준으로 다음과 같이 계산할 수 있습니다:

방정식 5 (5)

여기서 Z는 잔차 블록의 입력으로 간주됩니다.
식은 6 배치 정규화, 합성 계층, ReLu 활성화를 포함하는 잔류 함수입니다. {x_i}는 해당 계층의 학습 가중치로 간주됩니다. Z는 또한 스킵 연결 항등식을 정의하는데, 이는 사라지는 경배 문제를 해결합니다. ResNet은 일반적으로 이미지에서 시각적 특징 매핑을 위한 특징 추출기로 사용됩니다. 여기서 I 는 특징 맵을 고시각적 특징 표현 V로 표현하는 입력 이미지로 간주됩니다.

방정식 8 (6)

특징 추출 전에 이미지를 전처리하여 특징 추출을 개선해야 합니다. 이는 MSCOCO 벤치마크에서 수집된 원본 이미지로 간주되므로, 전처리의 첫 단계는 크기를 조정하고 정규화하는 것입니다.

방정식 9 (7)

식10 (8)

여기서 H^l은 이미지의 높이이고 W^l은 이미지의 가중치입니다. I_resize는 크기 조정된 이미지입니다.

[-1, 1] 또는 [0, 1] 범위에서 픽셀 값을 정규화하기 위해서입니다.

식15 (9)

여기서 μ 는 픽셀의 평균값으로 간주되 고, σ 는 참조된 이미지의 표준편차로 간주됩니다. 정규화된 이미지는 이제 특징 추출을 위해 추가로 처리됩니다.

방정식 18 (10)

여기서 방정식 19 는 특징 벡터로 간주됩니다. 행 캡션이 토큰화되면 숫자 형식으로 변환됩니다.

방정식 20 (11)

캡션이 단어로 나뉘면

방정식 21 (12)

여기서 어휘는 중요한 역할을 하며, 각 단어는 정수 기반 색인으로 고유하게 식별됩니다.

식: 22 (13)

여기서 V_{, c}는 어휘 함수로 간주됩니다; 모든 수열의 길이가 짝수해야 하며; 따라서 최대 높이 또는 이상적인 길이는 L_최대값으로 간주됩니다.

방정식 25 (14)

이제 토큰이 임베드됩니다;

식26 (15)

j = 1,2,3, ... .., L_최대값에 대해서요

여기서 식: 28 는 K차원의 내장된 벡터로 간주됩니다; 이제 디코더는 확률적 모델에 기반한 후보 캡션 생성을 위한 캡션을 디코딩하는 데 사용됩니다.

식: 29 (16)

여기서 w_j는 타임스탬프 j의 작업물, w_{1: j-1}은 시간 스탬프 j-1에서 생성된 단어이고 e_j-1은 이전 단어 wj-1이 포함된 임베드된 특징입니다. 모든 타임스탬프마다 네트워크는 다음 단어나 확률을 어휘를 통해 예측합니다.

방정식 35 (17)

여기서 w는 출력 가중치, b는 출력 바이어스입니다. 따라서 최대 확률은 다음과 같이 계산됩니다.

방정식 38 (18)

후보 캡션의 최대 길이는 단어가 수신되거나 와 같은 특수 토큰으로 식별되면 계산됩니다. 빔 검색은 더 나은 후보 캡션을 선택하는 데에도 유용하므로, 순서는 다음과 같습니다:

방정식 39 (19)

방정식 40 (20)

따라서 생성된 후보 캡션은 다음 순서입니다. 방정식 41

장기 단기 기억은 일반적으로 서열 생성에 사용됩니다. LSTM은 CNN을 특징 추출기로 사용하여 단어를 순차적으로 생성하여 의미 있는 문장을 만듭니다. LSTM은 각 타임스탬프 T에서 포겟 게이트를 계산합니다.

방정식 42

여기서 f_t 는 포겟 게이트로, σ는 활성화 함수, w_f는 가중치, b_f는 편향으로 간주됩니다.

y_t는 입력 특징 벡터로 간주되고, H_T-1은 숨겨진 상태로 간주됩니다.

방정식 48 (22)

방정식 49 (23)

J_t는 입력으로 간주되며, 식106 후보 상태로 간주되며, w_j와 w_c는 각각 입력 가중치와 후보 상태로 간주되고, b_j 및 b_c 또는 편향으로 간주됩니다.

방정식 54 (24)

C_t는 모든 상태로 간주되고, C_t-1은 이전 상태로 간주됩니다.

방정식 57 (25)

O_t는 출력으로, w_o 는 무게로, b_o는 바이어스로 간주됩니다. 숨겨진 상태와 셀 상태를 초기화하기 위해 다음과 같은 계산이 필요합니다.

방정식 61 (26)

식: 62 (27)

여기서 h_i 와 C_i는 각각 숨겨진 상태와 셀 상태로, w_h 와 w_c는 각각 숨겨진 상태와 돛 셀 상태의 가중치이며, b_c 와 _{b h}는 편향으로 간주되고, k는 특징 추출기로 간주됩니다. 캡션의 순서는 다음과 같이 계산됩니다:

방정식 69 (28)

여기서 T는 생성된 캡션 길이입니다.

254 × 254 × 3은 크기 조정 또는 사전 처리된 이미지이며, I는 입력 이미지로 간주됩니다.

방정식 71 (29)

여기서 W와 b는 각각 가중치와 편향으로 간주되고, I는 입력 특징으로, ReLU는 활성화 함수로 간주됩니다. 이는 합성곱 층의 계산입니다. 이제 풀링 계층은 다음과 같이 계산할 수 있습니다:

방정식 72 (30)

풀링 층을 마무리한 후; 완전 연결 계층은 다음과 같이 매핑할 수 있습니다:

방정식 73 (31)

여기서 w_f 와 b_f 는 각각 네트워크의 가중치와 편향으로 간주됩니다.

방정식 74 (32)

방정식 75 (33)

여기서 N은 공간 영역, d는 특징의 차원으로 간주됩니다.

방정식 76 (34)

방정식 77 (35)

여기서 w_h 와 b_h는 각각 숨겨진 상태의 가중치와 편향으로 간주되고, w,_c , b_c 는 각각 세포 상태의 가중치와 편향으로 간주됩니다. 캡션은 다음과 같이 생성할 수 있습니다:

방정식 78 (36)

인코더와 디코더
제안된 시스템은 CNN을 사용해 기계 번역을 위해 데이터를 인코딩합니다. 이 경우 입력과 출력은 모두 서열이지만, 길이가 다를 수 있습니다. 기계는 한 번에 하나씩 벡터를 인코딩하고 해독합니다. 벡터를 출발점으로 사용하여 기계는 인코딩과 디코딩을 시작하고, 최종 조건부 확률 분포가 나올 때까지 계속 계산합니다. 한 예는 다음과 같습니다:

방정식 80 (37)

이를 확률 분포로 간주합니다.

시스템은 데이터를 벡터 이미지 형태로 인코딩할 수 있으며, 이후 디코딩할 수 있습니다. fc_n (I)는 이미지 이해를 위한 이미지 모델로 간주됩니다.

방정식 83 (38)

방정식 84 (39)

식은 85 (40)

S₁ 은 S₀의 후속 반복이고, S₂ 는 S₁의 후속 반복입니다. 모든 입력이 이전 계층의 출력에 의존한다고 할 수 있습니다. 이미지는 CNN에 의해 벡터로 변환되어 다음 층으로 전송되며, 이 층은 모든 벡터를 통과합니다. 여기서는 RNN이 벡터를 단어로 해독한 후 단어들을 순차적으로 의미 있는 문장으로 배열하는 주의 메커니즘을 사용합니다.

방정식 86 (41)

여기서 T는 입력의 길이입니다.

방정식 87 (42)

방정식 88 (43)

K₁, K₂, K₃, K₄, ......, K_T-1은 숨겨진 디코딩 상태입니다.

그림 2: 인코딩 및 디코딩 모델. 이 그림은 이미지 캡션에 사용되는 인코더-디코더 프레임워크를 제시하며, 이미지 특징이 벡터 표현으로 인코딩되고 이후 순차적인 텍스트 설명으로 디코딩되는 과정을 보여줍니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.

프로세스 모델
그림 3은 학습 모듈의 흐름도를 보여주며, 데이터셋과 그 현장 진실 캡션이 먼저 로드된 위치를 보여줍니다. 데이터가 CNN 인코딩에 맞게 정규화된 후, 추출한 특징을 사용해 ResNet 모델이 초기화되고 학습됩니다. RNN과 시작 및 끝 마커가 붙은 시스템별 단어를 사용해 캡션을 해독할 수 있습니다. 시스템은 최종 단어가 발견되면 추출을 완료하며, N은 후보 캡션의 총 단어 수입니다.

그림 3: 훈련 모델의 흐름도. 이 그림은 데이터 전처리, 특징 추출, 모델 학습, 최적화를 포함한 모델 학습 과정의 단계별 과정을 설명합니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.

테스트 모델의 흐름도는 그림 4에 나타나 있으며, 시스템은 먼저 인코더와 디코더 모델을 로드한 후 ResNet 모델과 캡션 추출을 위한 입력 데이터를 로드합니다. 디코딩 오류가 없다면, 첫 단어부터 마지막 단어까지 추론할 수 있습니다. 최종 단어에 도달하면 해독된 단어를 얻을 수 있고, 주의 메커니즘을 사용해 단어를 순서대로 의미 있게 배열하여 캡션을 만들 수 있습니다. 훈련 모델의 빔 크기는 5이고 최대 길이는 20이며, 배치 크기는 20 에포크로 128입니다.

그림 4: 테스트 모델의 흐름도. 이 그림은 테스트 워크플로우를 보여주며, 입력 이미지가 학습된 모델을 통해 처리되어 캡션을 생성하고 성능을 평가하는 과정을 보여줍니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.

ResNet-152 이미지 캡션 알고리즘
입력과 출력 매개변수를 초기화하면, 입력은 MSCOCO 이미지 집합으로 받아들여져 I = (i₁, i₂, i_{3, .......} i_N) 주 석 J = (j₁, j₂, j₃, ......... j_N) 출력은 캡션으로 계산됩니다. 첫 번째 단계에서는 입력이 필요하고, 그 후 화면 비율을 다음과 같이 조정하여 이미지를 전처리합니다

방정식 92 (44)

여기서 w와 h는 이미지의 원래 너비와 높이, w는_새 값, h 는 크기 조정된 크기, T 는 미리 정의된 목표 크기(_Ts = 224)로 간주되고, max(w, h)는 가장 큰 크기를 정의하며, 이는 종횡비를 유지하도록 축소되었습니다.

특징 추출 후에는 다음과 같은 식별 블록을 선언해야 합니다.

방정식 100 (45)

그 다음 배치 크기, 에포크 수, 숨겨진 레이어의 가중치로 _숨겨진W, 출력 레이어의 출력 W, 그리고 바이어스로 된 B _높이 B _바이어스같은 매개변수를 초기화합니다. 초기화가 완료되면 합성곱 계층의 출력을 계산해야 합니다.

방정식 101 (46)

b_l 이 1과 동등할 경우 일반 ReLU 블록으로 간주될 수 있습니다. 하지만 b_l 이 1과 같지 않거나 0과 동치하지 않으면,

방정식 102 (47)

그 다음 생존 타당성을 계산합니다.

방정식 103 (48)

여기서 F_K 는 시스템의 생존 타당성으로 간주되고, K는 모델 내 블록의 총 수를 나타냅니다. 그 다음 확률 분포를 계산합니다.

방정식 104 (49)

확률 분포가 계산되면, 이를 이용해 데이터를 디코딩할 모델을 구축합니다.

방정식 105 /9500

K₁, K₂, K₃, K₄, ......, K_T-1은 숨겨진 디코딩 상태입니다.

모델에 접근할 때는 후보 캡션을 참조 캡션과 비교해 평가하는 주의 메커니즘을 적용해야 하며; 최종 지표는 BLEU, METEOR, CIDEr, ROUGE를 사용하여 평가할 수 있습니다.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

소프트웨어 및 환경 사양
Python 3.10이 실험에 사용된 주요 프로그래밍 언어였습니다. Visual Studio Code는 개발 환경(VS Code)을 구축하는 데 사용되었습니다. 이 연구에서 중요한 라이브러리로는 데이터 직렬화를 위한 Pickle, 병렬 처리를 위한 멀티프로세싱, 파일 처리를 위한 glob, 딥러닝 모델 개발을 위한 PyTorch가 있습니다. 하드웨어 구성에는 256GB 저장 공간, 8GB RAM, 그리고 더 빠른 연산을 위한 CUDA 지원이 적용된 NVIDIA GTX 시리즈 GPU가 포함되었습니다. 실험에는 AMD 라이젠 5000 시리즈 프로세서 또는 인텔 코어 i5 프로세서를 탑재한 컴퓨터가 사용되었습니다. 구현에 사용된 운영체제는 Windows 10/11이었습니다. 표 1의 환경 명세 표에서 쉽게 이해할 수 있습니다.

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

인공지능 분야에서 이미지에 캡션을 붙이는 일은 어려운 작업입니다. 이미지 자막은 수많은 연구의 주제였으며, 예민하거나 정밀한 자막은 여전히 최고 수준의 정밀도를 요구합니다. 이미지 캡션 달성을 위해 많은 머신러닝 기법을 사용할 수 있으며, CNN, RNN, ResNet-152를 활용한 연구도 많았습니다. 하지만 정밀도 향상과 처리 시간 단축이 필요합니다. 제안된 시스템은 CNN을 인코더로, RNN을 디코더로, Torch Vision을 라이브러리로, ResNet을 주요 학습 모델로 사용하여 구축되었습니다. ResNet은 스킵 연결 기법을 사용하여 레이어를 활용하여, Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

저자들은 이 논문에서 보고된 연구에 영향을 미칠 수 있는 경쟁적인 재정적 이해관계나 개인적 관계가 없다고 선언한다.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 연구에 사용된 벤치마크를 제공해 준 MSCOCO 데이터셋 제작자들에게 감사드립니다. 저자들은 이 연구를 위해 외부 자금을 받지 않았다고 선언합니다.

Access restricted. Please log in or start a trial to view this content.

Materials

```html

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 시리즈	AMD	100-100000059WOF	AMD Ryzen 5000 시리즈는 AMD가 개발한 고성능 프로세서 라인으로, Zen 3 아키텍처를 기반으로 합니다. 이 프로세서는 데스크톱 및 노트북에서 일반 목적 컴퓨팅과 데이터 처리 및 기계 학습 워크플로와 같은 고급 작업에 널리 사용됩니다.
GPU	NVIDIA	4.71933E+12	NVIDIA GeForce GTX는 게임뿐만 아니라 딥 러닝 및 이미지 처리와 같은 목적의 컴퓨팅 작업에 널리 사용되는 그래픽 처리 장치(GPU) 시리즈로, 엔비디아가 개발했습니다.
Intel Core i5	Intel	BX8071514400F	Intel Core i5는 인텔이 개발한 중급 프로세서 시리즈로, 개인용 컴퓨터에서 일반 목적 및 계산 작업에 널리 사용됩니다.
Python 3.10	Python Software Foundation	PEP 619	파이썬은 고급, 인터프리터형 프로그래밍 언어로 과학 계산, 데이터 분석 및 기계 학습에 널리 사용되며, 단순함, 가독성 및 광범위한 라이브러리 생태계로 유명합니다.
PyTorch	Facebook	26.03-py3	PyTorch는 Meta Platforms(구 Facebook)이 개발한 오픈 소스 딥 러닝 프레임워크로, 연구 및 산업에서 신경망을 구축 및 학습하는 데 널리 사용됩니다.
Visual Studio Code	Microsoft	None	Visual Studio Code(VS Code)는 마이크로소프트에서 개발한 가벼운, 오픈 소스 코드 편집기로, 소프트웨어 개발, 기계 학습 및 딥 러닝 프로젝트에 널리 사용됩니다.
Windows 11	Microsoft	KB5083631	Windows 11은 마이크로소프트에서 개발한 운영 체제로, 일반 컴퓨팅과 소프트웨어 개발 및 기계 학습 작업에 널리 사용됩니다.

```

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

딥러닝 기법을 이용한 이미지 캡션 생성

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles