Research Article

Генерация подписей к изображениям с использованием методов глубокого обучения

June 12th, 2026

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Этот протокол использует CNN, RNN и ResNet для субтитра изображений, извлекая описания активности изображений, людей, объектов и других элементов. Это оправдано показателями BLEU, CIDEr, METEOR и ROUGE.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Генерация подписей к изображениям — это попытка предоставить содержательное текстовое описание, связанное с изображением. Извлеченная информация имеет отношение к действиям, представленным на изображениях. ResNet (остаточная сеть) хорошо известна своей способностью классифицировать изображения, разработав глубокие иерархические представления. Цель данной статьи — использовать ResNet с различными умными фильтрами для более глубокой классификации изображений, что позволяет создавать достоверные и значимые описания, высокоточные относительно референсных подписей. Здесь в работе используется умная фильтрация для улучшения изображений, CNN для кодирования признаков, обучение моделей, а затем RNN (Рекуррентная нейронная сеть) для декодирования признаков. ResNet — очень эффективная модель для задач компьютерного зрения, особенно для классификации объектов и семантического анализа. ResNet хорошо известен своими остаточными связями, которые также известны как пропускающие соединения, решающие задачу нулевой градиента — ключевую задачу в глубоком обучении. Здесь для обучения модели используется бенчмарк MSCOCO (Microsoft Common Object in Context), который представляет собой большой набор данных с эталонными аннотациями, полезный для различных задач компьютерного зрения. ResNet помогает улучшить возможности обобщения, что особенно полезно для разнообразных изображений. Согласно полученным результатам, оценки BLUE: B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; МЕТЕОР: 0,195; РУЖ: 0,396; и CIDEr: 0,6.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В области компьютерного зрения и обработки естественного языка субтитры к изображениям — ключевая задача, которая позволяет извлечь описание изображения и действия, которые оно отражает. Цель модели — понимать изображения и переводить информацию в содержательные предложения или подписи.1. Вся процедура состоит из двух значимых этапов: первый — извлечение признаков, где используется модель CNN; второе — описание изображений с помощью RNN, а между ними используется ResNet для семантического анализа, генерации последовательностей и механизма внимания. ResNet сильно отличается от методов на основе шаблонов или модулей на базе DenseNet, поскольку использует пропускающие соединения, которые сокращают время выполнения и одновременно повышают производительность. Существует множество применений субтитров к изображениям, включая помощь людям с нарушениями зрения, развитие социальных сетей, оптимизацию поисковых систем на основе изображений, искусственный интеллект на основе изображений и многое другое. 2.

В компьютерном зрении распознавание сцены — это процесс идентификации и классификации общего контекста или окружающей среды изображения, такого как пляж, городской пейзаж, лес или офис. В отличие от распознавания объектов, которое сосредоточено на отдельных объектах, распознавание сцен учитывает текстуры, пространственные расположения и отношения объектов для понимания более широкого контекста. Он использует CNN и Vision Transformers — модели глубокого обучения, обученные на больших наборах данных, таких как Places365 и ImageNet. Области применения включают наблюдение за безопасностью, дополненную и виртуальную реальность (AR и VR) для захватывающих впечатлений, робототехнику для экологической осведомлённости и автономные транспортные средства для навигации. Несмотря на достижения, такие проблемы, как смена ракурсов, окклюзии и изменение освещения, делают распознавание сцен горячей темой в исследованиях компьютерного зрения и искусственного интеллекта. Ещё одной фундаментальной проблемой компьютерного зрения является распознавание сцен.

EnsCaption, модель двойной генеративной состязательной сети, была предложена для улучшения техники генерации и поиска3. Такое оформление позволяет гармоничные, основанные на размножении методы субтитраций, которые генерируют субтитры в соответствии с существующими целями. В то время как метод поиска использует модель на основе позиции или градации для более точного выбора лучшей модели для извлечения информации, чем другие в запросе на основе изображения. Было введено сопоставление изображений в «пространство смысла» с использованием визуальных компонентов, таких как объекты, активности и сцены, которые затем выравнивались с соответствующими вербальнымишаблонами 4. Используя корреляции и качества, обнаруженные в изображениях, подход строит фразы. Предложения выражают информацию насыщенно, сжато и тонко. Генерация субтитров на основе шаблонов была улучшена за счёт использования здравых знаний для улучшения семантическогопонимания 5. Эта техника расширила охват шаблона за пределы прямых характеристик изображения, охватив предполагаемые ассоциации. В этой работе используется существующий набор данных обнаружения объектов для извлечения 16 000 логичных утверждений для каждой аннотированной категории. Кроме того, обобщение было достигнуто с помощью WordNet, что позволило вводить большое количество фактов о ранее не виданныхобъектах 6. Предлагает обзор организованной таксономии техник глубокого обучения для субтитрирования изображений, включая такие темы, как механизмы внимания, тактики обучения с подкреплением и фреймворки энкодер-декодера. Помимо рассмотрения таких вопросов, как галлюцинации объектов и контекстное понимание, он также изучает широко используемые наборы данных и критерии оценки. Авторы указывают на направления для дальнейшего изучения, такие как улучшение методов предварительного обучения языка зрения и снижение смещения наборов данных. Длязадач субтитров к изображениям 7 был изучен подход семантического анализа, основанный на сверточных нейронных сетях и рекуррентных нейронных сетях. Субтитры к изображениям — одно из самых известных применений, позволяющее компьютерам создавать выразительные фразы, охватывающие изображение. Для получения высокоуровневых значимых семантических описаний эта процедура включает в себя не только идентификацию объектов и сцен; Это также включает изучение их состояний, характеристик и взаимодействий. Несмотря на врождённую сложность и сложность субтитров к изображениям, учёные добились впечатляющих успехов в этой области. Три основных метода субтитирования изображений на основе глубоких нейронных сетей, рассмотренных в этом исследовании, — это фреймворки на основе CNN-RNN, CNN-CNN и подкрепляющие обучающие системы. Была введена сквозная обучаемая модель субтитров к изображениям, интегрирующая компьютерное зрение и обработку естественного языка для создания последовательных описанийизображений 8. Для создания подписи используется фреймворк энкодер-декодера, в котором LSTM декодирует изображение в строку слов после того, как предварительно обученный CNN кодирует его в вектор признаков. Несмотря на недостатки, включая трудности с сложными пейзажами, вклад работы в задачи визуального языка остаётсяфундаментальным 9.

ResNet — это сверточная нейронная сеть (CNN), используемая в модели субтитирования изображений в предлагаемой работе для извлечения богатой визуальной информации из входных изображений. ResNet служит энкодером для создания вектора признаков, представляющего изображение, который обычно используется в архитектуре энкодер-декодера. Декодер, который генерирует описательные субтитры слово за словом, получает эти функции и часто реализуется с помощью рекуррентной нейронной сети (RNN), такой как LSTM или GRU. Можно добавить механизм внимания для повышения производительности, позволяя декодеру фокусироваться на определённых областях изображения при генерации каждого слова. Для максимизации точности подписей модель обучается сквозь конец с использованием функции потерь, такой как кросс-энтропия, и набора данных, например COCO. Трансферное обучение и тонкая настройка ResNet могут улучшить извлечение признаков, что ещё больше укрепляет модель и позволяет ей создавать высококачественные, контекстно-подходящие субтитры на широком спектре изображений. В субтитрах к изображениям ResNet часто предпочитают другим моделям, поскольку он эффективно решает проблему нулевого градиента — распространённую проблему в глубоких нейронных сетях. Это стало возможным благодаря новым методам остаточного обучения, которые обучают значительно более глубокие сети без ущерба для производительности, используя пропускные соединения для облегчения градиентного потока во время обратного распространения. Многослойный перцептрон, полностью связанная прямолинейная нейронная сеть, ассоциируется с обучаемым слоем. Затем RNN декодирует субтитры с помощью слоя softmax, создавая кандидатные субтитры. Функция активации — f(x), прямая тождественная функция — f(x) + x, а x рассматривается как тождественная, что показано на рисунке 1. В этом случае система использует остаточные блоки для калибровки модели во время обучения, а её входы проходят через как весовые соединения, так и пропускные соединения, также называемые ярлыками идентичности.

figure-introduction-1
Рисунок 1: Остаточная сеть подключения. Этот рисунок иллюстрирует архитектуру остаточной сети, выделяя пропускные соединения, которые улучшают градиентный поток и смягчают исчезающие градиенты при обучении глубокой сети. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Предположим, что Pl — это выход; L — это номер. остаточных блоков; ReLU должен быть обычным блоком, если он близок к 1, но если он не равен 1, то его можно вычислить как:

figure-introduction-2(1)

Здесь b — случайная величина, а k — функция отображения.

figure-introduction-3(2)

Здесь sl рассматривается как вероятность выживания для предлагаемой системы;

figure-introduction-4(3)

Полученное правило вероятности выживания как:

figure-introduction-5(4)

Где SL должна быть с вероятностью выживания, так же как L — с полным нет. блоков.

Субтитры к изображениям — это сложная задача, сочетающая обработку естественного языка и компьютерное зрение для создания описательных текстовых субтитров к изображениям. Для этого необходимо понять и интерпретировать визуальное содержание изображения и перевести его в связные предложения в контексте. В этой области наличие обширных и разнообразных наборов данных крайне важно для оценки и обучения моделей. Эти наборы данных содержат широкий спектр изображений и связанных аннотаций, которые крайне важны для разработки и тестирования алгоритмов субтитра изображений. Наиболее часто используемые наборы данных — MSCOCO и Flickr30k, которые содержат миллионы изображений и создают различные трудности в обработке изображений. MSCOCO гораздо больше Flickr30k11. Набор данных MS COCO был разделён на следующие наборы: 82 783 изображения для обучения, 40 504 для валидации и 40 775 для тестирования.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Реализация была выполнена с использованием основной модели — ResNet-152, а также кодера в виде CNN, декодера как RNN и ресурсов из Таблицы материалов.

ResNet-152
ResNet считается основой для более эффективного извлечения функций при субтитрах изображений. ResNet обеспечивал лучшую производительность обучения, чем другие модели, поскольку решал проблему исчезающего градиента и эффективно её устранял. На изображениях могут появляться различные объекты, и модели необходимо понимать их взаимосвязи для лучшего субтитра. Вот почему это можно рассматривать как иерархическое извлечение признаков. ResNet-152 может справляться со сложными задачами компьютерного зрения. Ключевое преимущество этой модели — эффективное использование остаточных или пропускных соединений. Он очень эффективен в решении проблемы исчезающего градиента. Он может изучать сложные, надёжные признаки для достижения большей точности. ResNet-152 придерживался узкого места, который снижал вычислительные затраты и делал его более эффективным по сравнению с другими архитектурами, такими как VGG-16. У него есть заметная основа трансферного обучения, подходящая для предварительно обученных моделей и различных задач, таких как обнаружение объектов и сегментация данных. Пропускная связь ускоряла обучение и делала его более стабильным. По сравнению с моделью на основе трансформаторов, которая использует механизм самоконцентрации для понимания последовательных данных, ResNet существенно отличается. Модель на основе трансформаторов требует большого объёма данных для глубокого понимания текстовых данных, что даёт эффективные результаты, но работает немного медленнее. Причиной выбора ResNet являются пропускные соединения, которые ускоряют выполнение и значительно улучшают результаты. В области субтитров к изображениям используется ResNet для извлечения признаков, представляющих объект и выполняемое действие на изображении. ResNet использовал остаточную сеть, которая использовала пропускные соединения. Здесь остаточный блок можно вычислить с ссылкой на вход Z как:

figure-protocol-1(5)

где Z считается входом остаточного блока.
figure-protocol-2является остаточной функцией, включающей пакетную нормализацию, сверточные слои и активацию ReLu. {xi} считается обучающим весом соответствующих слоёв. Z также определяет тождественную связь с пропуском, которая также решает проблему нулевого градиента. ResNet обычно используется как экстрактор признаков для визуального отображения объектов по изображениям. Здесь I рассматривается как входное изображение для представления карт объектов в высоковизуальном представлении признаков V.

figure-protocol-3(6)

Перед извлечением признаков изображение должно быть предварительно обработано для улучшения извлечения признаков. Это считается исходным изображением, собранным из бенчмарка MSCOCO, поэтому первым шагом в предварительной обработке является изменение размера и нормализация изображения.

figure-protocol-4(7)

figure-protocol-5(8)

Где Hl — высота изображения, а Wl — вес изображения. Iresize — это изображение с измененным размером.

Чтобы нормализовать значение пикселя от диапазона [-1, 1] или [0, 1]

figure-protocol-6(9)

Где μ рассматривается как среднее значение пикселя σ рассматривается как стандартное отклонение ссылаемого изображения. Нормализованное изображение теперь дополнительно обрабатывается для извлечения признаков.

figure-protocol-7(10)

где figure-protocol-8 рассматривается как вектор признаков. Когда подпись строки токенизируется, она преобразуется в числовой формат.

figure-protocol-9(11)

Если подпись разбивается на слова, то

figure-protocol-10(12)

Здесь важную роль играет словарный запас, и каждое слово уникально идентифицируется с помощью индексирования на основе целых чисел.

figure-protocol-11(13)

где Vc рассматривается как функция словарного запаса; необходимо обеспечить равномерную длину всех последовательностей; поэтому максимальная высота или идеальная длина считается L-max.

figure-protocol-12(14)

Теперь токены встраиваются как;

figure-protocol-13(15)

для j = 1,2,3, ... .., Lmax

где figure-protocol-14 рассматривается как встроенный вектор с K размерности; теперь декодер используется для декодирования подписи для генерации кандидатов в подпись, основанной на вероятностной модели.

figure-protocol-15(16)

Где wj — произведение на временной метке j, w1: j-1 — это сгенерированное слово на временной метке j-1, а ej-1 — встроенный признак с предыдущим словом wj-1. На каждой метке сети, предсказанное следующее слово или вероятность, вычисляется по словарному запасу.

figure-protocol-16(17)

где w — выходной вес, а b — выходное смещение. Максимальная вероятность вычисляется как

figure-protocol-17(18)

Максимальная длина кандидат-подписи вычисляется после получения или идентификации <конец> слова как специальный токен, например и . Поиск по лучу также полезен для выбора лучшего кандидата подписи, поэтому последовательность выглядит следующим образом:

figure-protocol-18(19)

figure-protocol-19(20)

Таким образом, сгенерированная кандидат-подпись — это последовательность figure-protocol-20

Для генерации последовательностей обычно используется долговременная кратковременная память. LSTM использует CNN в качестве экстрактора признаков и последовательно генерирует слова для создания значимых предложений. LSTM вычисляет элемент забытья на каждом временном метке T.

figure-protocol-21

Если f t рассматривается как элемент забыть, σ — как функция активации, wf — как вес, а bf — как смещение,

yt рассматривается как вектор входных признаков, ht-1 — как скрытое состояние.

figure-protocol-22(22)

figure-protocol-23(23)

Jt рассматривается как вход, figure-protocol-24 рассматривается как кандидатное состояние, wj иw c рассматриваются как вес для входа и кандидатного состояния соответственно, bj и bc или считаются смещением.

figure-protocol-25(24)

Ct рассматривается как все состояния, Ct-1 считается предыдущим состоянием.

figure-protocol-26(25)

O t считается выходом, wo — весом, а bo — смещением. Для инициализации скрытых и ячейковых состояний требуются следующие вычисления.

figure-protocol-27(26)

figure-protocol-28(27)

Где hi и C i рассматриваются как состояния скрытой и ячейки соответственно, wh и w c — веса для состояния скрытой и парусной ячейки соответственно, bc и bh считаются смещением, k рассматривается как экстрактор признаков. Последовательность подписи вычисляется следующим образом:

figure-protocol-29(28)

Где T — длина сгенерированной подписи.

254 × 254 × 3 — это изменённое или предварительно обработанное изображение, и I считается входным изображением.

figure-protocol-30(29)

Если W и b рассматриваются как вес и смещение соответственно, то I рассматривается как входные признаки, а ReLU — как функция активации. Это вычисление сверточного слоя. Теперь слой пула можно вычислить как:

figure-protocol-31(30)

После завершения слоя пула; полностью связанный слой можно отображить как:

figure-protocol-32(31)

Где wf и b f рассматриваются как вес и смещение сети соответственно.

figure-protocol-33(32)

figure-protocol-34(33)

где N рассматривается как пространственная область, а d — как размерность объекта.

figure-protocol-35(34)

figure-protocol-36(35)

Где wh и bh рассматриваются как вес и смещение скрытого состояния соответственно, wc и bc рассматриваются как вес и смещение состояния клетки соответственно. Подпись может быть сгенерирована как:

figure-protocol-37(36)

Энкодер и декодер
Предлагаемая система кодирует данные для машинного перевода с помощью CNN. В этом случае вход и выход — это последовательности, но их длина может различаться. По одному за раз машина кодирует и декодирует каждый вектор. Используя вектор в качестве отправной точки, машина начинает кодировать и декодировать, а затем продолжает вычисления до финального условного распределения вероятностей. Один из примеров следующий:

figure-protocol-38(37)

Это считается распределением вероятностей.

Система может кодировать данные в виде векторного изображения, а затем их можно декодировать. fcn (I) считается моделью изображения для понимания изображений.

figure-protocol-39(38)

figure-protocol-40(39)

figure-protocol-41(40)

S1 — это последующая итерация S0, а S2 — последующая итерация S1. Можно сказать, что каждый вход зависит от выхода предыдущего слоя. Изображения преобразуются CNN в векторы и отправляются на следующий слой, который проходит через все векторы. Здесь используется механизм внимания для последовательного упорядочения слов в осмысленное предложение после того, как RNN расшифровывает векторы в слова.

figure-protocol-42(41)

Где T — длина входа.

figure-protocol-43(42)

figure-protocol-44(43)

k1, k 2, k3, k4, ......, kt-1 — это скрытые состояния декодирования.

figure-protocol-45
Рисунок 2: Модель кодирования и декодирования. На рисунке представлена структура энкодер-декодер, используемая для субтитра к изображениям, показывая, как признаки изображения кодируются в векторные представления и затем декодируются в последовательные текстовые описания. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Модель процесса
См. рисунок 3, на котором показана блок-схема обучающих модулей, где сначала загружались набор данных и его подписи с основной правдой. После нормализации данных для кодирования CNN модель ResNet инициализируется и обучается с использованием извлечённых признаков. RNN и специфические для системы слова, помеченные маркерами начала и конца, затем могут использоваться для декодирования подписи. Система завершает извлечение, если найдено последнее слово, и N — общее количество слов в кандидатной подписи.

figure-protocol-46
Рисунок 3: Блок-схема модели обучения. На рисунке представлен пошаговый процесс обучения модели, включая предобработку данных, извлечение признаков, обучение модели и оптимизацию. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Блок-схема тестовой модели показана на рисунке 4, где система сначала загружает модели энкодера и декодера, затем загружает модель ResNet и входные данные для извлечения субтитра. Если ошибок декодирования не было, вывод можно сделать от первого до последнего слова. После достижения последнего слова можно получить расшифрованные слова, а подпись создана, используя механизм внимания, чтобы последовательно расположить слова в осмысленном порядке. Размер луча учебной модели — пять лучей, максимальная длина — 20, а размер партии — 128 с 20 эпохами.

figure-protocol-47
Рисунок 4: Блок-схема модели тестирования. На этом рисунке отображён рабочий процесс тестирования, демонстрируя, как входные изображения обрабатываются через обученную модель для генерации субтитров и оценки производительности. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Алгоритм субтитра изображений ResNet-152
Инициализируйте входные и выходные параметры, и здесь вход принимается как множество образов MSCOCO как I = (i1, i2, i3, ....... iN) вместе с аннотацией J = (j1, j2, j3, ......... jN) а выходные данные вычисляются в виде субтитров. На самом первом этапе требуется ввод, затем предварительно обработайте изображения, изменяя размер соотношения сторон как

figure-protocol-48(44)

Где w и h — исходная ширина и высота изображения, wnew и hnew — изменённые размеры, Ts считается заранее определённым целевым размером (Ts = 224), max(w, h) определяет наибольшую размерность, масштабированную для сохранения соотношения сторон.

После извлечения признака необходимо объявить блок идентичности как

figure-protocol-49(45)

Затем инициализируйте параметры, такие как размер пакета, количество эпох, W скрытый как вес для скрытых слоёв, W как выходной слой, и Bвысота ,B смещение как смещение. После инициализации необходимо вычислить выход сверточного слоя.

figure-protocol-50(46)

Его можно рассматривать как нормальный ReLU-блок, если bl эквивалентно 1. Но если bl не равно 1 или не эквивалентно 0, то это будет так:

figure-protocol-51(47)

Затем вычислите осуществимость выживания по

figure-protocol-52(48)

Где FK рассматривается как осуществимость выживаемости системы, а K берётся для обозначения общего числа блоков в модели. Затем вычислите распределение вероятностей

figure-protocol-53(49)

После вычисления распределения вероятностей строит модель для доступа к ней и декодирования данных с помощью данных.

figure-protocol-54/9500

k1, k 2, k3, k4, ......, kt-1 — это скрытые состояния декодирования.

При доступе к модели необходимо применять механизмы внимания для генерации субтитров, которые оценивают кандидат-подпись по референсной подписи; итоговые метрики затем можно оценить с помощью BLEU, METEOR, CIDEr и ROUGE.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Программное обеспечение и спецификации среды
Python 3.10 был основным языком программирования для экспериментов. Visual Studio Code использовался для настройки среды разработки (VS Code). Важные библиотеки, используемые в этом исследовании, включают Pickle для сериализации данных, многопроцессорную для параллельной обработки, glob для обработки файлов и PyTorch для разработки моделей глубокого обучения. Аппаратная конфигурация включала 256 ГБ памяти, 8 ГБ оперативной памяти и видеокарту серии NVIDIA GTX с поддержкой CUDA для более быстрых вычислений. Для экспериментов использовался компьютер с процессором AMD Ryzen 5000 серии или Intel Core i5. Windows 10/11 была операционной системой, использованной для реализации. Её легко понять из таблицы спецификаций окружающей среды в Таблице 1.

МатериалТехнические характеристики
GPUСерия NVIDIA GTX
БиблиотекиPyTorch, Pickle, мультипрограммирование, Glob
ОСWindows 10/11
ПроцессорСерия Intel Core i5/AMD Ryzen 5000
ПрограммированиеPython 3.10
RAM8 ГБ
Программное обеспечениеVisual Studio Code
Хранение256 ГБ

Таблица 1: Спецификации окружающей среды. В этой таблице представлены материалы, использованные в реализации, и их спецификации, такие как языки программирования, библиотеки и аппаратные характеристики.

Качественный анализ
Согласно качественному анализу модели по разным категориям, таким как уличные и внутренние сцены, а также простые и сложные, модель довольно эффективна в описании изображения. B1, B2, B3 и B4 считаются баллами BLEU. C считается CIDEr, M — METEOR, а R — ROUGE. Для каждой матрицы, где B1 равен 0,579, B2 — 0,404, B3 — 0,279, B4 — 0,191, METEOR — 0,195, ROUGE — 0,396, а CIDEr — 0,6, результат представлен как 1, как показано в Таблице 2.

МатрицыОценки MSCOCO
BLEU 10.579
BLEU 20.404
BLEU 30.279
BLEU 40.191
МЕТЕОР0.195
РУЖ0.396
CIDEr0.6

Таблица 2: Экспериментальные результаты. Эта таблица суммирует эффективность предлагаемой модели с использованием метрик оценки, таких как BLEU, METEOR, ROUGE и CIDEr, обеспечивая количественную оценку качества субтитра.

figure-results-1
Рисунок 5: Экспериментальный результат. На этом рисунке представлено графическое представление метрик оценки, иллюстрируя сравнительную эффективность модели по различным показателям. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Сравнение результатов показано в таблицах 3, 4 и 5. Следующие ссылки приведены в таблицах 3, 3 и 4:10, 11, 12, 13, 14

МетодB1B2B3B4
Face-CapF [10]0.57130.36510.24070.1652
Face-Init [10]0.56630.36490.2430.1686
Face-CapL [11]0.5890.37890.25070.1719
Шаг лицом [10]0.58430.37560.24780.1696
CSPDN-BiLSTM-SelfAtt [12]0.60120.39920.27030.1921
CNN+RNN+ResNet-152 (предложено)0.5790.4040.2790.191

Таблица 3: Сравнение результатов для баллов BLEU. В этой таблице сравниваются результаты BLEU по разным моделям или конфигурациям, чтобы подчеркнуть улучшения точности генерации субтитров.

Как показано в таблицах 3 и 4, CSPDN-BiLSTM-SelfAtt12 показывает лучшие результаты на B1 и B4, тогда как CNN+RNN+ResNet-152 лучше работает на B2 и B3. CNN+RNN+ResNet-152 лучше METER и CIDEr, чем ROUGE. Таким образом, оба метода одинаковы по баллам BLEU, но предлагаемый показатель лучше двух других. Таким образом, общее превосходство результата достигается с помощью предложенного метода. Face-CapF10, Face-Init10,Face-CapL 11, Face-Step10 выполняют субтитры на основе набора данных FlickrFace11K. Однако результаты сравнительно слабые даже для большого набора данных. Несмотря на то, что предлагаемая модель имеет значительно более высокий балл CIDEr, это различие вызвано различиями в процедуре оценки, подготовке наборов данных и специфике реализации.

МетодМЕТЕОРCIDErРУЖ
Face-CapF [10]0.17190.23040.4476
Face-Init [10]0.17170.23130.4484
Face-CapL [11]0.17440.24720.4547
Шаг лицом [10]0.17450.22830.4504
CSPDN-BiLSTM-SelfAtt [12]0.19320.26170.4793
CNN+RNN+ResNet-152 (предложено)0.1950.60.396

Таблица 4: Сравнение результатов по METEOR, CIDEr и ROUGE. В этой таблице представлен сравнительный анализ нескольких метрик оценки для оценки семантического и синтаксического качества сгенерированных субтитров.

МетодB1B2B3B4МЕТЕОРРУЖ
Аугментация шаблонов [13]0.2380.1090.050.0220.0960.249
EfficientNetB0 [14]0.28270.13250.05880.02660.26610.3609
EfficientNetB1 [14]0.2890.14040.06420.02860.2710.3718
ResNet50 [14]0.26370.12170.04960.02070.24370.3423
MobileNetV2 [14]0.21060.0640.02150.0090.17940.2606
CNN+RNN+ResNet-152 (предложено)0.5790.4040.2790.1910.1950.396

Таблица 5: Сравнение результатов по оценкам BLEU, METEOR и ROUGE. В этой таблице представлено объединённое сравнение ключевых метрик оценки для демонстрации общей эффективности модели.

Согласно Таблице 5, EfficientNetB114 лучше для METEOR, но CNN+RNN+ResNet-152 лучше для B1-B 4 и ROUGE. В целом, предлагаемый результат превосходит по всем метрикам BLEU и ROUGE по сравнению с упомянутыми методами.

ДОСТУПНОСТЬ ДАННЫХ:
Все исходные данные и кодовые файлы, связанные с этим исследованием, доступны в дополнительных файлах.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В области искусственного интеллекта субтитры для изображений — сложная задача. Субтитры к изображениям были предметом многочисленных исследований, и острое или точное написание субтитров по-прежнему требует высочайшей точности. Для достижения цели субтитров к изображениям можно использовать множество методов машинного обучения, и многочисленные исследования использовали CNN, RNN и ResNet-152. Однако необходимы повышения точности и сокращения времени обработки. Предлагаемая система построена с использованием CNN в качестве энкодера, RNN в качестве декодера, Torch Vision в качестве библиотеки и ResNet в качестве основной модели обучения. ResNet использует технику skip connection для достижения более высокой производительности по сравнению с другими традиционными моделями, такими как Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2 и многимидругими 10, 11, 12, 13, 14.

Ключевые шаги предлагаемой работы включают использование умного фильтра для очистки изображений, а затем извлечение признаков со всеми основными этапами. Без точного извлечения признаков невозможно достичь цели модели, и если система не извлекает эти признаки корректно, это снижает точность показателей метрики. Этап обучения, выполненный с глубоким анализом векторов признаков и механизма внимания, сыграл важную роль в расшифровке тестовых данных. Есть ещё один важный этап в работе — обновление вокала. Когда при тестировании данных появляются новые слова, эти слова добавляются в словарь для улучшения производительности модели. Эти критически важные шаги сыграли важную роль в достижении лучшей точности, которая была выше, чем у ранее предложенной модели, такой как метод расширения шаблона. Система обучила модель для бенчмарка MSCOCO и получила более эффективную модель для субтитров.

Если размер тестовых данных увеличится, возможно, появится новые слова, связанные с изображениями. Это также может привести к незначительности при создании субтитров, и тогда это может быть реализовано через механизм внимания, который используется в модели. Словарный запас можно обновлять с помощью механизма внимания, который эффективен для последующего оценивания. Это можно рассматривать как самообучение или управление исключениями. Поскольку модель обучается с помощью MSCOCO, который содержит тысячи реальных изображений, может возникнуть множество объектов, которые необходимо обновлять при каждом выводе.

Одним из недостатков этой работы является то, что по сравнению с современными наборами данных, используемыми для обучения, модель может плохо работать на гораздо более старых изображениях, особенно на чёрно-белых или исторических изображениях низкого качества, из-за различий в визуальных особенностях, контрасте и текстуре. Если изображения имеют низкое разрешение, то сложнее извлечь точные признаки, и ResNet-152 может ухудшить фазу кодирования в этом случае. Он также плохо работает на слишком большом количестве старых изображений, что означает, что эти изображения принадлежат древним временам из-за плохих или поврежденных векторов признаков. Ограничения включают оценку по одному набору данных и отсутствие перекрёстной валидации.

По сравнению с традиционными методами, предлагаемая модель лучше, так как улучшает извлечение признаков, тем самым улучшая генерацию подписей к изображениям. Умная фильтрация улучшает фазу извлечения признаков или кодирования, что лучше строит модель. ResNet-152 также использует пропускные соединения, которые используют время во время обучения. Таким образом, выполнение происходит гораздо быстрее, чем у других моделей, таких как EfficientNetB014. Механизм внимания также является основным фактором, повышающим производительность модели.

Эта техника может применяться в системах поиска изображений, автоматизированном наблюдении и вспомогательных технологиях для людей с нарушениями зрения. По мере быстрого развития искусственного интеллекта требуется улучшение системы поиска изображений, и эта техника может способствовать этому. С помощью этой модели люди с нарушениями зрения могут получить помощь в видении мира, переводя его в речь. Существует несколько важных и потенциальных применений субтитров к изображениям.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Авторы заявляют, что у них нет конкурирующих финансовых интересов или личных отношений, которые могли бы повлиять на работу, описанную в этой статье.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Мы признаем признательность создателям наборов данных MSCOCO за предоставление эталонов, использованных в этом исследовании. Авторы заявляют, что внешнее финансирование для этого исследования не было получено.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Серия AMD Ryzen 5000AMD100-100000059WOFСерия AMD Ryzen 5000 — это линейка высокопроизводительных процессоров, разработанных компанией AMD на базе архитектуры Zen 3. Эти процессоры широко используются в настольных компьютерах и ноутбуках как для универсальных вычислений, так и для сложных задач, таких как обработка данных и рабочие процессы машинного обучения.
GPUNVIDIA 4.71933E+12NVIDIA GeForce GTX — это серия графических процессоров (GPU), разработанных компанией NVIDIA, широко используемых как для игр, так и для универсальных вычислительных задач, таких как глубокое обучение и обработка изображений.
Intel Core i5IntelBX8071514400FIntel Core i5 — это серия процессоров среднего класса, разработанная компанией Intel, широко используемая в персональных компьютерах как для универсальных, так и для вычислительных задач.
Python 3.10Фонд программного обеспечения PythonPEP 619Python — это язык программирования высокого уровня, интерпретируемый, широко используемый в научных вычислениях, анализе данных и машинном обучении. Он известен своей простотой, читаемостью и обширной экосистемой библиотек.
PyTorchFacebook26.03-py3PyTorch — это открытый фреймворк для глубокого обучения, разработанный компанией Meta Platforms (ранее Facebook), широко используемый для создания и обучения нейронных сетей в исследованиях и промышленности.
Visual Studio CodeMicrosoftНетVisual Studio Code (VS Code) — это лёгкий редактор кода с открытым исходным кодом, разработанный компанией Microsoft. Он широко используется для разработки программного обеспечения, включая проекты машинного обучения и глубокого обучения.
Windows 11MicrosoftKB5083631Windows 11 — это операционная система, разработанная компанией Microsoft, широко используемая для общих вычислительных задач, а также для разработки программного обеспечения и машинного обучения.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Image Caption GenerationDeep LearningResNet ModelSmart FilteringFeature EncodingCNN EncoderRNN DecoderObject ClassificationSemantic AnalysisMSCOCO Dataset

Related Articles