이 프로토콜은 CNN, RNN, ResNet을 활용하여 이미지 캡션을 작성하고, 이미지의 활동, 사람, 물체 및 기타 요소에 대한 설명을 추출합니다. 이는 BLEU, CIDEr, METEOR, ROUGE 지표 점수로 정당화되었습니다.
Research Article
June 12th, 2026
이 프로토콜은 CNN, RNN, ResNet을 활용하여 이미지 캡션을 작성하고, 이미지의 활동, 사람, 물체 및 기타 요소에 대한 설명을 추출합니다. 이는 BLEU, CIDEr, METEOR, ROUGE 지표 점수로 정당화되었습니다.
이미지 캡션 생성은 이미지를 포함하는 의미 있는 텍스트 설명을 제공하기 위한 노력입니다. 추출된 정보는 이미지에 존재하는 활동과 관련이 있습니다. ResNet(잔류 네트워크)은 이미지 분류 능력으로 잘 알려져 있으며, 심층 계층적 표현을 개발했습니다. 이 논문의 목적은 다양한 스마트 필터와 함께 ResNet을 사용하여 이미지를 더 깊이 분류하여, 참조 캡션에 대해 매우 정밀하고 진정성 있고 의미 있는 설명을 생성할 수 있도록 하는 것입니다. 이 연구에서는 스마트 필터링 기법을 사용해 이미지를 향상시키고, CNN을 이용해 특징을 인코딩하며, 모델 훈련을 수행하고, 이후 RNN(순환 신경망)을 사용해 특징을 해독합니다. ResNet은 특히 객체 분류와 의미 분석에 있어 컴퓨터 비전 작업에 매우 효과적인 모델입니다. ResNet은 잔차 연결(residual connections)으로 잘 알려져 있는데, 이는 딥러닝에서 중요한 문제인 사라짐 구배 문제를 해결하는 스킵 연결(skipping connections)으로도 알려져 있습니다. 여기서는 MSCOCO(Microsoft Common Object in Context) 벤치마크를 사용하여 모델을 학습시키는데, 이는 다양한 컴퓨터 비전 작업에 유용한 참조 주석이 포함된 대규모 데이터셋입니다. ResNet은 다양한 이미지에 특히 유용한 일반화 능력을 향상시킵니다. 결과에 따르면, BLUE 점수는 B1: 0.579, B2: 0.404, B3: 0.279, B4: 0.191입니다; 유성: 0.195; 루즈: 0.396; CIDEr: 0.6.
컴퓨터 비전과 자연어 처리 분야에서 이미지 캡션은 이미지와 그에 묘사된 행동에 대한 설명을 추출하는 중요한 작업입니다. 모델의 의도는 이미지를 이해하고 정보를 의미 있는 문장이나 캡션으로 번역하는 것입니다.1. 전체 절차는 두 가지 중요한 단계로 구성됩니다: 첫 번째는 CNN 모델을 사용하는 특징 추출; 두 번째는 RNN을 이용한 이미지 설명이며, 그 사이에 ResNet은 의미 분석, 시퀀스 생성, 주의 메커니즘에 사용됩니다. ResNet은 실행 시간을 줄이면서 성능을 향상시키는 스킵 연결을 사용한다는 점에서 템플릿 기반 메서드나 DenseNet 기반 모듈과 매우 다릅니다. 시각 장애인 지원, 소셜 미디어 플랫폼 강화, 이미지 기반 검색 엔진 최적화, 이미지 기반 AI(인공지능) 등 이미지 캡션의 다양한 응용 분야가 있습니다.
컴퓨터 비전에서 장면 인식은 해변, 도시 경관, 숲, 사무실과 같은 이미지의 일반적인 맥락이나 환경을 식별하고 분류하는 과정입니다. 개별 물건에 초점을 맞춘 객체 인식과 달리, 장면 인식은 질감, 공간 배열, 객체 관계를 고려하여 더 큰 맥락을 이해합니다. CNN과 Vision Transformers, Places365, ImageNet 같은 대규모 데이터셋에서 학습된 딥러닝 모델을 사용합니다. 응용 분야로는 보안 감시, 몰입형 경험을 위한 증강 및 가상현실(AR 및 VR), 환경 인식을 위한 로봇공학, 내비게이션을 위한 자율주행차 등이 포함됩니다. 발전에도 불구하고, 시점 이동, 가림, 조명 변화와 같은 문제들은 컴퓨터 비전과 인공지능 연구에서 장면 인식을 뜨겁게 만듭니다. 컴퓨터 비전의 또 다른 근본적인 문제는 장면 인식입니다.
EnsCaption은 생성-검색 앙상블 기법을 개선하기 위해 제안된 이중 생성 적대적 네트워크 모델입니다. 이 레이아웃은 기존 목표에 부합하는 자막을 생성하는 조화로운 번식 기반 이미지 캡션 방식을 가능하게 합니다. 검색 기반 기법은 위치 기반 또는 등급 기반 모델을 사용하여 이미지 기반 쿼리에서 다른 모델보다 더 정밀하게 정보를 추출하는 최적의 모델을 선택합니다. 객체, 활동, 장면과 같은 시각적 구성 요소를 사용하여 이미지를 '의미 공간'에 매핑하는 기능이 도입되었으며, 이에 대응하는 언어 템플릿과 정렬되었습니다. 이미지에서 발견된 상관관계와 특성을 이용해 구문을 구성합니다. 문장은 정보를 풍부하고 압축되며 미묘하게 표현합니다. 템플릿 기반 캡션 생성은 상식적 지식을 통합하여 의미 이해를 향상시키는 데 도움이 되었습니다5. 이 기법은 템플릿의 범위를 단순한 이미지 특성을 넘어 추론된 연관성까지 확장했습니다. 이 연구는 기존 객체 탐지 데이터셋을 사용하여 주석이 달린 각 범주별로 16,000개의 상식 진술을 추출합니다. 또한 WordNet을 사용하여 일반화가 이루어져 이전에 못했던 객체들에 대한 많은 사실을 유도할 수 있었습니다. 주의 메커니즘, 강화 학습 전술, 인코더-디코더 프레임워크 등 주제를 포함하여 이미지 캡션 기법의 체계적인 분류체계를 검토합니다. 객체 환각과 맥락 이해 같은 문제를 다루는 것과 함께, 일반적으로 사용되는 데이터셋과 평가 기준도 검토합니다. 저자들은 시각 언어 사전 학습 기법 개선과 데이터셋 편향 감소 등 추가 연구가 필요한 분야를 지적합니다. 합성곱 신경망과 반복 신경망을 기반으로 한 의미 분석 접근법이 이미지 캡션 작업에 대해 탐구되었습니다.7. 이미지 캡션은 가장 잘 알려진 활용법 중 하나로, 컴퓨터가 이미지를 포괄하는 감성적인 문구를 생성할 수 있게 합니다. 고수준적이고 의미 있는 의미 설명을 제공하기 위해 이 절차는 단순히 객체와 장면을 식별하는 것을 넘어서; 또한 이들의 상태, 특성, 상호작용을 검토하는 것도 포함됩니다. 이미지 캡션의 본질적인 복잡성과 어려움에도 불구하고, 학계는 이 분야에서 인상적인 진전을 이루었습니다. 이 연구에서 다루는 세 가지 주요 딥 뉴럴 네트워크 기반 이미지 자막 기법은 CNN-RNN 기반, CNN-CNN 기반, 그리고 강화 학습 프레임워크입니다. 컴퓨터 비전과 자연어 처리를 통합하여 이미지의 일관된 설명을 생성하는 종단 간 학습 가능한 이미지 캡션 모델이 도입되었습니다8. 캡션을 만들기 위해 LSTM이 사전 학습된 CNN이 특징 벡터로 인코딩한 후 이미지를 단어 문자열로 디코딩하는 인코더-디코더 프레임워크를 사용합니다. 복잡한 배경 설정에 대한 어려움 등 단점에도 불구하고, 이 논문의 시각 언어 과제에 대한 기여는 여전히 근본적입니다.
ResNet은 제안된 연구의 이미지 캡션 모델에서 입력 이미지로부터 풍부한 시각 정보를 추출하기 위해 사용되는 합성곱 신경망(CNN)입니다. ResNet은 이미지를 나타내는 특징 벡터를 생성하는 인코더 역할을 하며, 이는 일반적으로 인코더-디코더 아키텍처에서 사용됩니다. 단어별 설명 자막을 생성하는 디코더는 이러한 기능을 받아 종종 LSTM이나 GRU와 같은 순환 신경망(RNN)을 사용하여 구현됩니다. 디코더가 각 단어를 생성할 때 이미지의 특정 영역에 집중할 수 있도록 주의 메커니즘을 추가하여 성능을 향상시킬 수 있습니다. 캡션 정확도를 극대화하기 위해, 모델은 교차엔트로피와 같은 손실 함수와 COCO와 같은 데이터셋을 사용하여 종단 간 학습을 진행합니다. 전이 학습과 ResNet 미세 조정은 특징 추출을 강화하여 모델을 더욱 강화하고 다양한 이미지에서 고품질의 맥락에 적합한 캡션을 생성할 수 있게 합니다. 이미지 캡션 분야에서는 ResNet이 딥 신경망에서 흔히 발생하는 사라짐 구배 문제를 효과적으로 해결하기 때문에 다른 모델보다 선호되는 경우가 많습니다. 이는 역전파 중 경배 흐름을 용이하게 하기 위해 스킵 연결을 사용함으로써 성능을 희생하지 않고 훨씬 더 깊은 네트워크를 훈련시키는 새로운 잔여 학습 접근법 덕분입니다. 다층 퍼셉트론은 완전 연결된 피드 포워드 신경망으로, 훈련 가능 계층과 연관되어 있습니다. RNN은 소프트맥스 계층을 사용하여 캡션을 디코딩하여 후보 캡션을 생성합니다. 활성화 함수는 f(x), 순방향 항등 함수는 f(x) + x이며, x는 항등으로 간주됩니다. 이는 그림 1에 나타났습니다. 이 경우 시스템은 잔여 블록을 사용해 학습 중 모델을 보정하며, 입력은 가중치 연결과 스킵 연결을 모두 통과합니다. 이들은 정체성 단축기라고도 합니다.

그림 1: 잔류 연결 네트워크. 이 그림은 잔류 네트워크의 구조를 보여주며, 딥 네트워크 훈련 중 구배 흐름을 개선하고 사라지는 구배를 완화하는 스킵 연결을 강조합니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.
Pl 을 출력이라고 가정하자; L은 번호입니다. 잔류 블록; ReLU는 1에 가까울 때 관습적인 블록이어야 하지만, 1이 아니면 다음과 같이 계산할 수 있습니다:
(1)
여기서 b는 확률 변수이고, k는 사상 함수이다.
(2)
여기서 sl 은 제안된 시스템에서 생존할 확률로 간주됩니다;
(3)
생존 확률에 대한 결과적인 규칙은 다음과 같다;
(4)
여기서 S,L 은 생존 확률을 나타내야 하며, L도 전체 노예에 대해 말해야 합니다. 블록 속 건물들.
이미지 캡션은 자연어 처리와 컴퓨터 비전을 결합해 이미지에 대한 설명적 텍스트 캡션을 생성하는 도전적인 작업입니다. 이를 위해서는 이미지의 시각적 내용을 이해하고 해석하여 그 맥락 내에서 일관된 문장으로 번역해야 합니다. 이 분야에서는 모델 평가와 훈련에 있어 방대하고 다양한 데이터셋을 갖추는 것이 매우 중요합니다. 이 데이터셋은 방대한 이미지와 관련 주석을 제공하여 이미지 캡션 알고리즘 개발과 테스트에 필수적입니다. 가장 자주 사용되는 데이터셋은 수백만 장의 이미지를 포함하고 있어 이미지 처리에 다양한 도전 과제를 제기하는 MSCOCO와 Flickr30k입니다. MSCOCO는 Flickr30k11보다 훨씬 큽니다. MS COCO 데이터셋은 학습용 82,783장, 검증용 40,504장, 테스트용 40,775장의 이미지 세트로 나뉘어 있습니다.
구현은 메인 모델인 ResNet-152와 CNN으로의 인코더, RNN으로의 디코더, 그리고 재료표의 자원을 함께 사용해 이루어졌습니다.
ResNet-152
ResNet은 이미지 캡션에서 특징을 보다 효율적으로 추출하는 핵심 장치로 간주됩니다. ResNet은 사라지는 구배 문제를 해결하고 효율적으로 해결했기 때문에 다른 모델보다 더 나은 학습 성능을 제공했습니다. 다양한 물체가 이미지 내에 등장할 수 있으며, 모델은 더 나은 캡션을 위해 이들의 관계를 이해해야 합니다. 그래서 계층적 특징 추출으로 간주할 수 있습니다. ResNet-152는 복잡한 컴퓨터 비전 작업을 처리할 수 있습니다. 이 모델의 주요 장점은 잔류 또는 스킵 연결을 효과적으로 사용할 수 있다는 점입니다. 이 방법은 사라지는 경사 문제를 해결하는 데 매우 효과적입니다. 복잡하고 견고한 특징을 학습하여 더 높은 정확도를 달성할 수 있습니다. ResNet-152는 계산 비용을 줄이고, VGG-16과 같은 다른 아키텍처보다 더 효과적이게 하는 병목 설계를 따랐습니다. 사전 학습 모델과 객체 탐지, 데이터 분할 등 다양한 작업에 적합한 두드러진 전이 학습 중간을 가지고 있습니다. 스킵 연결 덕분에 훈련이 가속화되고 안정성도 높아졌습니다. 순차 데이터를 이해하는 데 자기 주의 메커니즘을 사용하는 트랜스포머 기반 모델과 비교할 때, ResNet은 상당히 다릅니다. 트랜스포머 기반 모델은 텍스트 데이터를 깊이 이해하기 위해 방대한 데이터가 필요하며, 효과적인 결과를 내지만 실행 속도가 다소 느립니다. ResNet을 선택한 동기는 실행 속도를 높이고 결과를 크게 향상시키는 스킵 연결 기능입니다. 이미지 캡션 분야에서는 ResNet이 객체와 이미지에서 수행된 동작을 나타내는 특징을 추출하는 데 사용됩니다. ResNet은 스킵 연결을 활용하는 잔류 네트워크를 사용했습니다. 여기서 잔차 블록은 입력 Z를 기준으로 다음과 같이 계산할 수 있습니다:
(5)
여기서 Z는 잔차 블록의 입력으로 간주됩니다.
배치 정규화, 합성 계층, ReLu 활성화를 포함하는 잔류 함수입니다. {xi}는 해당 계층의 학습 가중치로 간주됩니다. Z는 또한 스킵 연결 항등식을 정의하는데, 이는 사라지는 경배 문제를 해결합니다. ResNet은 일반적으로 이미지에서 시각적 특징 매핑을 위한 특징 추출기로 사용됩니다. 여기서 I 는 특징 맵을 고시각적 특징 표현 V로 표현하는 입력 이미지로 간주됩니다.
(6)
특징 추출 전에 이미지를 전처리하여 특징 추출을 개선해야 합니다. 이는 MSCOCO 벤치마크에서 수집된 원본 이미지로 간주되므로, 전처리의 첫 단계는 크기를 조정하고 정규화하는 것입니다.
(7)
(8)
여기서 Hl은 이미지의 높이이고 Wl은 이미지의 가중치입니다. Iresize는 크기 조정된 이미지입니다.
[-1, 1] 또는 [0, 1] 범위에서 픽셀 값을 정규화하기 위해서입니다.
(9)
여기서 μ 는 픽셀의 평균값으로 간주되 고, σ 는 참조된 이미지의 표준편차로 간주됩니다. 정규화된 이미지는 이제 특징 추출을 위해 추가로 처리됩니다.
(10)
여기서
는 특징 벡터로 간주됩니다. 행 캡션이 토큰화되면 숫자 형식으로 변환됩니다.
(11)
캡션이 단어로 나뉘면
(12)
여기서 어휘는 중요한 역할을 하며, 각 단어는 정수 기반 색인으로 고유하게 식별됩니다.
(13)
여기서 V, c는 어휘 함수로 간주됩니다; 모든 수열의 길이가 짝수해야 하며; 따라서 최대 높이 또는 이상적인 길이는 L최대값으로 간주됩니다.
(14)
이제 토큰이 임베드됩니다;
(15)
j = 1,2,3, ... .., L최대값에 대해서요
여기서
는 K차원의 내장된 벡터로 간주됩니다; 이제 디코더는 확률적 모델에 기반한 후보 캡션 생성을 위한 캡션을 디코딩하는 데 사용됩니다.
(16)
여기서 wj는 타임스탬프 j의 작업물, w1: j-1은 시간 스탬프 j-1에서 생성된 단어이고 ej-1은 이전 단어 wj-1이 포함된 임베드된 특징입니다. 모든 타임스탬프마다 네트워크는 다음 단어나 확률을 어휘를 통해 예측합니다.
(17)
여기서 w는 출력 가중치, b는 출력 바이어스입니다. 따라서 최대 확률은 다음과 같이 계산됩니다.
(18)
후보 캡션의 최대 길이는 단어가 수신되거나 와 같은 특수 토큰으로 식별되면 계산됩니다. 빔 검색은 더 나은 후보 캡션을 선택하는 데에도 유용하므로, 순서는 다음과 같습니다:
(19)
(20)
따라서 생성된 후보 캡션은 다음 순서입니다. 
장기 단기 기억은 일반적으로 서열 생성에 사용됩니다. LSTM은 CNN을 특징 추출기로 사용하여 단어를 순차적으로 생성하여 의미 있는 문장을 만듭니다. LSTM은 각 타임스탬프 T에서 포겟 게이트를 계산합니다.

여기서 ft 는 포겟 게이트로, σ는 활성화 함수, wf는 가중치, bf는 편향으로 간주됩니다.
yt는 입력 특징 벡터로 간주되고, HT-1은 숨겨진 상태로 간주됩니다.
(22)
(23)
Jt는 입력으로 간주되며,
후보 상태로 간주되며, wj와 wc는 각각 입력 가중치와 후보 상태로 간주되고, bj 및 bc 또는 편향으로 간주됩니다.
(24)
Ct는 모든 상태로 간주되고, Ct-1은 이전 상태로 간주됩니다.
(25)
Ot는 출력으로, wo 는 무게로, bo는 바이어스로 간주됩니다. 숨겨진 상태와 셀 상태를 초기화하기 위해 다음과 같은 계산이 필요합니다.
(26)
(27)
여기서 hi 와 Ci는 각각 숨겨진 상태와 셀 상태로, wh 와 wc는 각각 숨겨진 상태와 돛 셀 상태의 가중치이며, bc 와 b h는 편향으로 간주되고, k는 특징 추출기로 간주됩니다. 캡션의 순서는 다음과 같이 계산됩니다:
(28)
여기서 T는 생성된 캡션 길이입니다.
254 × 254 × 3은 크기 조정 또는 사전 처리된 이미지이며, I는 입력 이미지로 간주됩니다.
(29)
여기서 W와 b는 각각 가중치와 편향으로 간주되고, I는 입력 특징으로, ReLU는 활성화 함수로 간주됩니다. 이는 합성곱 층의 계산입니다. 이제 풀링 계층은 다음과 같이 계산할 수 있습니다:
(30)
풀링 층을 마무리한 후; 완전 연결 계층은 다음과 같이 매핑할 수 있습니다:
(31)
여기서 wf 와 bf 는 각각 네트워크의 가중치와 편향으로 간주됩니다.
(32)
(33)
여기서 N은 공간 영역, d는 특징의 차원으로 간주됩니다.
(34)
(35)
여기서 wh 와 bh는 각각 숨겨진 상태의 가중치와 편향으로 간주되고, w,c , bc 는 각각 세포 상태의 가중치와 편향으로 간주됩니다. 캡션은 다음과 같이 생성할 수 있습니다:
(36)
인코더와 디코더
제안된 시스템은 CNN을 사용해 기계 번역을 위해 데이터를 인코딩합니다. 이 경우 입력과 출력은 모두 서열이지만, 길이가 다를 수 있습니다. 기계는 한 번에 하나씩 벡터를 인코딩하고 해독합니다. 벡터를 출발점으로 사용하여 기계는 인코딩과 디코딩을 시작하고, 최종 조건부 확률 분포가 나올 때까지 계속 계산합니다. 한 예는 다음과 같습니다:
(37)
이를 확률 분포로 간주합니다.
시스템은 데이터를 벡터 이미지 형태로 인코딩할 수 있으며, 이후 디코딩할 수 있습니다. fcn (I)는 이미지 이해를 위한 이미지 모델로 간주됩니다.
(38)
(39)
(40)
S1 은 S0의 후속 반복이고, S2 는 S1의 후속 반복입니다. 모든 입력이 이전 계층의 출력에 의존한다고 할 수 있습니다. 이미지는 CNN에 의해 벡터로 변환되어 다음 층으로 전송되며, 이 층은 모든 벡터를 통과합니다. 여기서는 RNN이 벡터를 단어로 해독한 후 단어들을 순차적으로 의미 있는 문장으로 배열하는 주의 메커니즘을 사용합니다.
(41)
여기서 T는 입력의 길이입니다.
(42)
(43)
K1, K2, K3, K4, ......, KT-1은 숨겨진 디코딩 상태입니다.

그림 2: 인코딩 및 디코딩 모델. 이 그림은 이미지 캡션에 사용되는 인코더-디코더 프레임워크를 제시하며, 이미지 특징이 벡터 표현으로 인코딩되고 이후 순차적인 텍스트 설명으로 디코딩되는 과정을 보여줍니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.
프로세스 모델
그림 3은 학습 모듈의 흐름도를 보여주며, 데이터셋과 그 현장 진실 캡션이 먼저 로드된 위치를 보여줍니다. 데이터가 CNN 인코딩에 맞게 정규화된 후, 추출한 특징을 사용해 ResNet 모델이 초기화되고 학습됩니다. RNN과 시작 및 끝 마커가 붙은 시스템별 단어를 사용해 캡션을 해독할 수 있습니다. 시스템은 최종 단어가 발견되면 추출을 완료하며, N은 후보 캡션의 총 단어 수입니다.

그림 3: 훈련 모델의 흐름도. 이 그림은 데이터 전처리, 특징 추출, 모델 학습, 최적화를 포함한 모델 학습 과정의 단계별 과정을 설명합니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.
테스트 모델의 흐름도는 그림 4에 나타나 있으며, 시스템은 먼저 인코더와 디코더 모델을 로드한 후 ResNet 모델과 캡션 추출을 위한 입력 데이터를 로드합니다. 디코딩 오류가 없다면, 첫 단어부터 마지막 단어까지 추론할 수 있습니다. 최종 단어에 도달하면 해독된 단어를 얻을 수 있고, 주의 메커니즘을 사용해 단어를 순서대로 의미 있게 배열하여 캡션을 만들 수 있습니다. 훈련 모델의 빔 크기는 5이고 최대 길이는 20이며, 배치 크기는 20 에포크로 128입니다.

그림 4: 테스트 모델의 흐름도. 이 그림은 테스트 워크플로우를 보여주며, 입력 이미지가 학습된 모델을 통해 처리되어 캡션을 생성하고 성능을 평가하는 과정을 보여줍니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.
ResNet-152 이미지 캡션 알고리즘
입력과 출력 매개변수를 초기화하면, 입력은 MSCOCO 이미지 집합으로 받아들여져 I = (i1, i2, i3, ....... iN) 주 석 J = (j1, j2, j3, ......... jN) 출력은 캡션으로 계산됩니다. 첫 번째 단계에서는 입력이 필요하고, 그 후 화면 비율을 다음과 같이 조정하여 이미지를 전처리합니다
(44)
여기서 w와 h는 이미지의 원래 너비와 높이, w는새 값, h 는 크기 조정된 크기, T 는 미리 정의된 목표 크기(Ts = 224)로 간주되고, max(w, h)는 가장 큰 크기를 정의하며, 이는 종횡비를 유지하도록 축소되었습니다.
특징 추출 후에는 다음과 같은 식별 블록을 선언해야 합니다.
(45)
그 다음 배치 크기, 에포크 수, 숨겨진 레이어의 가중치로 숨겨진 W, 출력 레이어의 출력 W, 그리고 바이어스로 된 B 높이 B 바이어스 같은 매개변수를 초기화합니다. 초기화가 완료되면 합성곱 계층의 출력을 계산해야 합니다.
(46)
bl 이 1과 동등할 경우 일반 ReLU 블록으로 간주될 수 있습니다. 하지만 bl 이 1과 같지 않거나 0과 동치하지 않으면,
(47)
그 다음 생존 타당성을 계산합니다.
(48)
여기서 FK 는 시스템의 생존 타당성으로 간주되고, K는 모델 내 블록의 총 수를 나타냅니다. 그 다음 확률 분포를 계산합니다.
(49)
확률 분포가 계산되면, 이를 이용해 데이터를 디코딩할 모델을 구축합니다.
/9500
K1, K2, K3, K4, ......, KT-1은 숨겨진 디코딩 상태입니다.
모델에 접근할 때는 후보 캡션을 참조 캡션과 비교해 평가하는 주의 메커니즘을 적용해야 하며; 최종 지표는 BLEU, METEOR, CIDEr, ROUGE를 사용하여 평가할 수 있습니다.
소프트웨어 및 환경 사양
Python 3.10이 실험에 사용된 주요 프로그래밍 언어였습니다. Visual Studio Code는 개발 환경(VS Code)을 구축하는 데 사용되었습니다. 이 연구에서 중요한 라이브러리로는 데이터 직렬화를 위한 Pickle, 병렬 처리를 위한 멀티프로세싱, 파일 처리를 위한 glob, 딥러닝 모델 개발을 위한 PyTorch가 있습니다. 하드웨어 구성에는 256GB 저장 공간, 8GB RAM, 그리고 더 빠른 연산을 위한 CUDA 지원이 적용된 NVIDIA GTX 시리즈 GPU가 포함되었습니다. 실험에는 AMD 라이젠 5000 시리즈 프로세서 또는 인텔 코어 i5 프로세서를 탑재한 컴퓨터가 사용되었습니다. 구현에 사용된 운영체제는 Windows 10/11이었습니다. 표 1의 환경 명세 표에서 쉽게 이해할 수 있습니다.
| 재료 | 사양 |
| GPU | NVIDIA GTX 시리즈 |
| 도서관 | 파이토치, 피클, 멀티프로그래밍, 글롭 |
| OS | 윈도우 10/11 |
| 프로세서 | 인텔 코어 i5/AMD 라이젠 5000 시리즈 |
| 프로그램 | 파이썬 3.10 |
| 램 | 8GB |
| 소프트웨어 | 비주얼 스튜디오 코드 |
| 저장 | 256GB |
표 1: 환경 사양. 이 표는 구현에 사용된 자료와 그 명세(예: 프로그래밍 언어, 라이브러리, 하드웨어 명세)를 요약합니다.
정성적 분석
야외 및 실내 장면, 단순 장면과 복잡한 장면 등 다양한 범주에 따른 모델의 질적 분석에 따르면, 이 모델은 이미지를 설명하는 데 다소 효율적입니다. B1, B2, B3, B4는 BLEU 점수로 간주됩니다. C는 CIDEr, M은 운석, R은 ROUGE로 간주됩니다. B1이 0.579, B2가 0.404, B3가 0.279, B4가 0.191, METEOR가 0.195, ROUGE가 0.396, CIDEr가 0.6인 모든 행렬에 대해 결과는 표 2에 나타난 대로 1로 표현됩니다.
| 행렬 | MSCOCO 점수 |
| 블루1 | 0.579 |
| 블루2 | 0.404 |
| 블루3 | 0.279 |
| 블루4 | 0.191 |
| 운석 | 0.195 |
| 루즈 | 0.396 |
| CIDEr | 0.6 |
표 2: 실험 결과. 이 표는 BLEU, METEOR, ROUGE, CIDEr와 같은 평가 지표를 사용하여 제안된 모델의 성능을 요약하여 캡션 품질의 정량적 평가를 제공합니다.

그림 5: 실험 결과. 이 그림은 평가 지표의 그래픽 표현을 제공하며, 모델의 다양한 측정 지표 간 비교 성능을 보여줍니다. 이 그림의 더 큰 버전을 보시려면 여기를 클릭해 주세요.
결과 비교는 표 3, 4, 5에 나와 있습니다. 다음 참고문헌들은 표 3, 3, 4:10, 11, 12, 13, 14에 나열되어 있습니다.
| 방법 | B1 | B2 | B3 | B4 |
| 페이스캡 [10] | 0.5713 | 0.3651 | 0.2407 | 0.1652 |
| 페이스-이닛 [10] | 0.5663 | 0.3649 | 0.243 | 0.1686 |
| 페이스캡 [11] | 0.589 | 0.3789 | 0.2507 | 0.1719 |
| 페이스 스텝 [10] | 0.5843 | 0.3756 | 0.2478 | 0.1696 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.6012 | 0.3992 | 0.2703 | 0.1921 |
| CNN+RNN+ResNet-152 (제안됨) | 0.579 | 0.404 | 0.279 | 0.191 |
표 3: BLEU 점수 결과 비교. 이 표는 다양한 모델이나 구성에서 BLEU 점수 결과를 비교하여 캡션 생성 정확도의 향상을 강조합니다.
표 3과 4에서 보듯, CSPDN-BiLSTM-SelfAtt12는 B1과 B4에서 더 우수한 성능을 보이는 반면, CNN+RNN+ResNet-152는 B2와 B3에서 더 우수한 성능을 보입니다. CNN+RNN+ResNet-152가 ROUGE보다 METER와 CIDEr보다 우수합니다. 따라서 두 방법 모두 BLEU 점수는 같지만, 제안된 방법이 나머지 두 지표보다 더 우수합니다. 따라서 결과의 전반적인 우수성은 제안된 방법에 의해 달성됩니다. Face-CapF10, Face-Init10, Face-CapL11, Face-Step10은 FlickrFace11K 데이터셋을 기반으로 이미지 캡션을 수행하고 있습니다. 하지만 큰 데이터셋임에도 불구하고 결과는 비교적 좋지 않습니다. 제안된 모델이 CIDEr 점수가 훨씬 높음에도 불구하고, 이 차이는 평가 절차, 데이터셋 준비, 구현 구체성의 차이 때문입니다.
| 방법 | 운석 | CIDEr | 루즈 |
| 페이스캡 [10] | 0.1719 | 0.2304 | 0.4476 |
| 페이스-이닛 [10] | 0.1717 | 0.2313 | 0.4484 |
| 페이스캡 [11] | 0.1744 | 0.2472 | 0.4547 |
| 페이스 스텝 [10] | 0.1745 | 0.2283 | 0.4504 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.1932 | 0.2617 | 0.4793 |
| CNN+RNN+ResNet-152 (제안됨) | 0.195 | 0.6 | 0.396 |
표 4: METEOR, CIDEr, ROUGE에 대한 결과 비교. 이 표는 생성된 캡션의 의미 및 구문 품질을 평가하기 위해 여러 평가 지표의 비교 분석을 제공합니다.
| 방법 | B1 | B2 | B3 | B4 | 운석 | 루즈 |
| 템플릿-증강 [13] | 0.238 | 0.109 | 0.05 | 0.022 | 0.096 | 0.249 |
| 효율 넷B0 [14] | 0.2827 | 0.1325 | 0.0588 | 0.0266 | 0.2661 | 0.3609 |
| 효율적NetB1 [14] | 0.289 | 0.1404 | 0.0642 | 0.0286 | 0.271 | 0.3718 |
| ResNet50 [14] | 0.2637 | 0.1217 | 0.0496 | 0.0207 | 0.2437 | 0.3423 |
| MobileNetV2 [14] | 0.2106 | 0.064 | 0.0215 | 0.009 | 0.1794 | 0.2606 |
| CNN+RNN+ResNet-152 (제안됨) | 0.579 | 0.404 | 0.279 | 0.191 | 0.195 | 0.396 |
표 5: BLEU, METEOR, ROUGE 점수의 결과 비교. 이 표는 모델의 전반적인 효과를 보여주기 위해 주요 평가 지표들의 통합 비교를 제시합니다.
표 5에 따르면, EfficientNetB114는 METEOR에 더 적합하지만, CNN+RNN+ResNet-152는 B1-B 4와 ROUGE에 더 적합합니다. 전반적으로 제안된 결과는 모든 BLEU 및 ROUGE 지표에서 앞서 언급한 방법들보다 우수합니다.
데이터 가용성:
이 연구와 관련된 모든 원시 데이터와 코딩 파일은 보조 파일에 포함되어 있습니다.
인공지능 분야에서 이미지에 캡션을 붙이는 일은 어려운 작업입니다. 이미지 자막은 수많은 연구의 주제였으며, 예민하거나 정밀한 자막은 여전히 최고 수준의 정밀도를 요구합니다. 이미지 캡션 달성을 위해 많은 머신러닝 기법을 사용할 수 있으며, CNN, RNN, ResNet-152를 활용한 연구도 많았습니다. 하지만 정밀도 향상과 처리 시간 단축이 필요합니다. 제안된 시스템은 CNN을 인코더로, RNN을 디코더로, Torch Vision을 라이브러리로, ResNet을 주요 학습 모델로 사용하여 구축되었습니다. ResNet은 스킵 연결 기법을 사용하여 레이어를 활용하여, Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2 등 다양한 기존 모델보다 더 나은 성능을 달성합니다.
제안된 작업에서 중요한 단계는 스마트 필터를 사용해 이미지를 지우고, 모든 주요 단계를 포함한 특징 추출입니다. 정확한 특징 추출 없이는 모델의 목표를 달성할 수 없으며, 시스템이 특징을 제대로 추출하지 못하면 지표 점수의 정확도에 영향을 받습니다. 특징 벡터와 주의 메커니즘에 대한 심층 분석을 통해 수행된 훈련 단계는 테스트 데이터 해독에 중요한 역할을 했습니다. 작업에는 또 다른 중요한 단계가 있는데, 바로 보컬을 업데이트하는 것입니다. 데이터 테스트 중 새로운 단어가 나오면, 그 단어들이 사전에 추가되어 모델 성능을 향상시킵니다. 이러한 중요한 단계들은 템플릿 증강 기법과 같은 이전에 제안된 모델보다 더 높은 정확도를 달성하는 데 중요한 역할을 했습니다. 시스템은 MSCOCO 벤치마크 모델을 학습시키고 이미지 캡션에 더 효과적인 모델을 얻었습니다.
테스트 데이터 크기가 증가하면 이미지와 관련된 새로운 단어를 추가할 수도 있습니다. 또한 캡션을 생성할 때 무의미함을 초래할 수 있으며, 이 경우 모델에 사용된 주의 메커니즘을 통해 처리할 수 있습니다. 어휘는 주의 메커니즘을 통해 업데이트할 수 있으며, 이는 이후 평가에 효과적일 수 있습니다. 이는 자기학습 또는 예외 처리로 간주될 수 있습니다. 수천 장의 실제 이미지를 포함하는 MSCOCO로 학습하기 때문에, 매번 업데이트해야 할 객체가 너무 많아집니다.
이 연구의 단점 중 하나는 현대 학습 데이터셋과 비교할 때, 시각적 특징, 대비, 질감의 차이로 인해 훨씬 오래된 이미지, 특히 흑백이나 저품질 역사 이미지에서 모델의 성능이 떨어질 수 있다는 점입니다. 이미지의 해상도가 낮으면 정확한 특징을 추출하기 어려워지며, ResNet-152는 이 경우 인코딩 단계를 저하시킬 수 있습니다. 또한 너무 많은 오래된 이미지에서는 성능이 떨어지는데, 이는 그 이미지들이 형편없음이나 손상된 특징 벡터 때문에 고대 이미지임을 의미합니다. 제한점은 단일 데이터셋 평가와 교차 검증 부족입니다.
기존 접근법과 비교할 때, 제안된 모델은 특징 추출을 강화하여 이미지 캡션 생성을 개선한다는 점에서 더 우수합니다. 스마트 필터링은 특징 추출 또는 인코딩 단계를 개선하여 모델을 더 잘 구축합니다. ResNet-152는 훈련 중 시간을 활용하는 스킵 연결도 사용합니다. 따라서 실행 속도는 EfficientNetB014와 같은 다른 모델보다 훨씬 빠릅니다. 주의 메커니즘 또한 모델 성능을 향상시키는 주요 요소입니다.
이 기술은 영상 검색 시스템, 자동 감시, 시각 장애인을 위한 보조 기술에 활용될 수 있습니다. 인공지능이 빠르게 발전함에 따라 이미지 검색 시스템의 개선이 필요하며, 이 기술이 이를 돕는 데 기여할 수 있습니다. 이 모델을 통해 시각장애인은 세상을 말로 번역하여 세상을 보는 데 도움을 받을 수 있습니다. 이미지 캡션에는 여러 중요하고 잠재적 응용 분야가 있습니다.
저자들은 이 논문에서 보고된 연구에 영향을 미칠 수 있는 경쟁적인 재정적 이해관계나 개인적 관계가 없다고 선언한다.
이 연구에 사용된 벤치마크를 제공해 준 MSCOCO 데이터셋 제작자들에게 감사드립니다. 저자들은 이 연구를 위해 외부 자금을 받지 않았다고 선언합니다.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| AMD 라이젠 5000 시리즈 | AMD | 100-1000000059WOF | AMD 라이젠 5000 시리즈는 Zen 3 아키텍처를 기반으로 AMD가 개발한 고성능 프로세서 라인입니다. 이 프로세서들은 데스크톱과 노트북에서 범용 컴퓨팅과 데이터 처리 및 머신러닝 워크플로우와 같은 까다로운 작업에 널리 사용됩니다. |
| GPU | NVIDIA와 nbsp; | 4.71933E+12 | NVIDIA GeForce GTX는 NVIDIA가 개발한 그래픽 처리 장치(GPU) 시리즈로, 게임뿐만 아니라 딥러닝과 이미지 처리와 같은 범용 컴퓨팅 작업에 널리 사용됩니다. |
| 인텔 코어 i5 | 인텔 | BX8071514400F | 인텔 코어 i5는 인텔이 개발한 중급 프로세서 시리즈로, 개인용 컴퓨터에서 범용 및 계산 작업 모두에 널리 사용됩니다. |
| 파이썬 3.10 | 파이썬 소프트웨어 재단 | PEP 619 | 파이썬은 과학 컴퓨팅, 데이터 분석, 머신러닝에서 널리 사용되는 고수준 인터프리터 프로그래밍 언어입니다. 이 라이브러리는 단순함, 가독성, 그리고 방대한 라이브러리 생태계로 잘 알려져 있습니다. |
| 파이토치 | 페이스북 | 26.03-py3 | PyTorch는 Meta Platforms(구 Facebook)에서 개발한 오픈 소스 딥러닝 프레임워크로, 연구 및 산업에서 신경망 구축 및 훈련에 널리 사용됩니다. |
| 비주얼 스튜디오 코드 | 마이크로소프트 | 전혀 없습니다 | Visual Studio Code(VS Code)는 마이크로소프트에서 개발한 경량 오픈 소스 코드 편집기입니다. 머신러닝 및 딥러닝 프로젝트를 포함한 소프트웨어 개발에 널리 사용됩니다. |
| 윈도우 11 | 마이크로소프트 | KB5083631 | 윈도우 11은 마이크로소프트가 개발한 운영체제로, 일반 컴퓨팅뿐만 아니라 소프트웨어 개발 및 머신러닝 작업에 널리 사용됩니다. |
Request permission to reuse the text or figures of this JoVE article
Request Permission