Генерация подписей к изображениям с использованием методов глубокого обучения

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

Генерация подписей к изображениям с использованием методов глубокого обучения

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Этот протокол использует CNN, RNN и ResNet для субтитра изображений, извлекая описания активности изображений, людей, объектов и других элементов. Это оправдано показателями BLEU, CIDEr, METEOR и ROUGE.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Генерация подписей к изображениям — это попытка предоставить содержательное текстовое описание, связанное с изображением. Извлеченная информация имеет отношение к действиям, представленным на изображениях. ResNet (остаточная сеть) хорошо известна своей способностью классифицировать изображения, разработав глубокие иерархические представления. Цель данной статьи — использовать ResNet с различными умными фильтрами для более глубокой классификации изображений, что позволяет создавать достоверные и значимые описания, высокоточные относительно референсных подписей. Здесь в работе используется умная фильтрация для улучшения изображений, CNN для кодирования признаков, обучение моделей, а затем RNN (Рекуррентная нейронная сеть) для декодирования признаков. ResNet — очень эффективная модель для задач компьютерного зрения, особенно для классификации объектов и семантического анализа. ResNet хорошо известен своими остаточными связями, которые также известны как пропускающие соединения, решающие задачу нулевой градиента — ключевую задачу в глубоком обучении. Здесь для обучения модели используется бенчмарк MSCOCO (Microsoft Common Object in Context), который представляет собой большой набор данных с эталонными аннотациями, полезный для различных задач компьютерного зрения. ResNet помогает улучшить возможности обобщения, что особенно полезно для разнообразных изображений. Согласно полученным результатам, оценки BLUE: B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; МЕТЕОР: 0,195; РУЖ: 0,396; и CIDEr: 0,6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В области компьютерного зрения и обработки естественного языка субтитры к изображениям — ключевая задача, которая позволяет извлечь описание изображения и действия, которые оно отражает. Цель модели — понимать изображения и переводить информацию в содержательные предложения или подписи.¹. Вся процедура состоит из двух значимых этапов: первый — извлечение признаков, где используется модель CNN; второе — описание изображений с помощью RNN, а между ними используется ResNet для семантического анализа, генерации последовательностей и механизма внимания. ResNet сильно отличается от методов на основе шаблонов или модулей на базе DenseNet, поскольку использует пропускающие соединения, которые сокращают время выполнения и одновременно повышают производительность. Существует множество применений субтитров к изображениям, включая помощь людям с нарушениями зрения, развитие социальных сетей, оптимизацию поисковых систем на основе изображений, искусственный интеллект на основе изображений и многое другое^{. 2}.

В компьютерном зрении распознавание сцены — это процесс идентификации и классификации общего контекста или окружающей среды изображения, такого как пляж, городской пейзаж, лес или офис. В отличие от распознавания объектов, которое сосредоточено на отдельных объектах, распознавание сцен учитывает текстуры, пространственные расположения и отношения объектов для понимания более широкого контекста. Он использует CNN и Vision Transformers — модели глубокого обучения, обученные на больших наборах данных, таких как Places365 и ImageNet. Области применения включают наблюдение за безопасностью, дополненную и виртуальную реальность (AR и VR) для захватывающих впечатлений, робототехнику для экологической осведомлённости и автономные транспортные средства для навигации. Несмотря на достижения, такие проблемы, как смена ракурсов, окклюзии и изменение освещения, делают распознавание сцен горячей темой в исследованиях компьютерного зрения и искусственного интеллекта. Ещё одной фундаментальной проблемой компьютерного зрения является распознавание сцен.

EnsCaption, модель двойной генеративной состязательной сети, была предложена для улучшения техники генерации и поиска^3. Такое оформление позволяет гармоничные, основанные на размножении методы субтитраций, которые генерируют субтитры в соответствии с существующими целями. В то время как метод поиска использует модель на основе позиции или градации для более точного выбора лучшей модели для извлечения информации, чем другие в запросе на основе изображения. Было введено сопоставление изображений в «пространство смысла» с использованием визуальных компонентов, таких как объекты, активности и сцены, которые затем выравнивались с соответствующими вербальными^{шаблонами 4}. Используя корреляции и качества, обнаруженные в изображениях, подход строит фразы. Предложения выражают информацию насыщенно, сжато и тонко. Генерация субтитров на основе шаблонов была улучшена за счёт использования здравых знаний для улучшения семантического^{понимания 5}. Эта техника расширила охват шаблона за пределы прямых характеристик изображения, охватив предполагаемые ассоциации. В этой работе используется существующий набор данных обнаружения объектов для извлечения 16 000 логичных утверждений для каждой аннотированной категории. Кроме того, обобщение было достигнуто с помощью WordNet, что позволило вводить большое количество фактов о ранее не виданных^{объектах 6}. Предлагает обзор организованной таксономии техник глубокого обучения для субтитрирования изображений, включая такие темы, как механизмы внимания, тактики обучения с подкреплением и фреймворки энкодер-декодера. Помимо рассмотрения таких вопросов, как галлюцинации объектов и контекстное понимание, он также изучает широко используемые наборы данных и критерии оценки. Авторы указывают на направления для дальнейшего изучения, такие как улучшение методов предварительного обучения языка зрения и снижение смещения наборов данных. Для^задач субтитров к изображениям 7 был изучен подход семантического анализа, основанный на сверточных нейронных сетях и рекуррентных нейронных сетях. Субтитры к изображениям — одно из самых известных применений, позволяющее компьютерам создавать выразительные фразы, охватывающие изображение. Для получения высокоуровневых значимых семантических описаний эта процедура включает в себя не только идентификацию объектов и сцен; Это также включает изучение их состояний, характеристик и взаимодействий. Несмотря на врождённую сложность и сложность субтитров к изображениям, учёные добились впечатляющих успехов в этой области. Три основных метода субтитирования изображений на основе глубоких нейронных сетей, рассмотренных в этом исследовании, — это фреймворки на основе CNN-RNN, CNN-CNN и подкрепляющие обучающие системы. Была введена сквозная обучаемая модель субтитров к изображениям, интегрирующая компьютерное зрение и обработку естественного языка для создания последовательных описаний^{изображений 8}. Для создания подписи используется фреймворк энкодер-декодера, в котором LSTM декодирует изображение в строку слов после того, как предварительно обученный CNN кодирует его в вектор признаков. Несмотря на недостатки, включая трудности с сложными пейзажами, вклад работы в задачи визуального языка остаётся^{фундаментальным 9}.

ResNet — это сверточная нейронная сеть (CNN), используемая в модели субтитирования изображений в предлагаемой работе для извлечения богатой визуальной информации из входных изображений. ResNet служит энкодером для создания вектора признаков, представляющего изображение, который обычно используется в архитектуре энкодер-декодера. Декодер, который генерирует описательные субтитры слово за словом, получает эти функции и часто реализуется с помощью рекуррентной нейронной сети (RNN), такой как LSTM или GRU. Можно добавить механизм внимания для повышения производительности, позволяя декодеру фокусироваться на определённых областях изображения при генерации каждого слова. Для максимизации точности подписей модель обучается сквозь конец с использованием функции потерь, такой как кросс-энтропия, и набора данных, например COCO. Трансферное обучение и тонкая настройка ResNet могут улучшить извлечение признаков, что ещё больше укрепляет модель и позволяет ей создавать высококачественные, контекстно-подходящие субтитры на широком спектре изображений. В субтитрах к изображениям ResNet часто предпочитают другим моделям, поскольку он эффективно решает проблему нулевого градиента — распространённую проблему в глубоких нейронных сетях. Это стало возможным благодаря новым методам остаточного обучения, которые обучают значительно более глубокие сети без ущерба для производительности, используя пропускные соединения для облегчения градиентного потока во время обратного распространения. Многослойный перцептрон, полностью связанная прямолинейная нейронная сеть, ассоциируется с обучаемым слоем. Затем RNN декодирует субтитры с помощью слоя softmax, создавая кандидатные субтитры. Функция активации — f(x), прямая тождественная функция — f(x) + x, а x рассматривается как тождественная, что показано на рисунке 1. В этом случае система использует остаточные блоки для калибровки модели во время обучения, а её входы проходят через как весовые соединения, так и пропускные соединения, также называемые ярлыками идентичности.

Рисунок 1: Остаточная сеть подключения. Этот рисунок иллюстрирует архитектуру остаточной сети, выделяя пропускные соединения, которые улучшают градиентный поток и смягчают исчезающие градиенты при обучении глубокой сети. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Предположим, что P_l — это выход; L — это номер. остаточных блоков; ReLU должен быть обычным блоком, если он близок к 1, но если он не равен 1, то его можно вычислить как:

Уравнение 1 (1)

Здесь b — случайная величина, а k — функция отображения.

Уравнение 2 (2)

Здесь s_l рассматривается как вероятность выживания для предлагаемой системы;

Уравнение 3 (3)

Полученное правило вероятности выживания как:

Уравнение 4 (4)

Где S_L должна быть с вероятностью выживания, так же как L — с полным нет. блоков.

Субтитры к изображениям — это сложная задача, сочетающая обработку естественного языка и компьютерное зрение для создания описательных текстовых субтитров к изображениям. Для этого необходимо понять и интерпретировать визуальное содержание изображения и перевести его в связные предложения в контексте. В этой области наличие обширных и разнообразных наборов данных крайне важно для оценки и обучения моделей. Эти наборы данных содержат широкий спектр изображений и связанных аннотаций, которые крайне важны для разработки и тестирования алгоритмов субтитра изображений. Наиболее часто используемые наборы данных — MSCOCO и Flickr30k, которые содержат миллионы изображений и создают различные трудности в обработке изображений. MSCOCO гораздо больше Flickr30k11. Набор данных MS COCO был разделён на следующие наборы: 82 783 изображения для обучения, 40 504 для валидации и 40 775 для тестирования.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Реализация была выполнена с использованием основной модели — ResNet-152, а также кодера в виде CNN, декодера как RNN и ресурсов из Таблицы материалов.

ResNet-152
ResNet считается основой для более эффективного извлечения функций при субтитрах изображений. ResNet обеспечивал лучшую производительность обучения, чем другие модели, поскольку решал проблему исчезающего градиента и эффективно её устранял. На изображениях могут появляться различные объекты, и модели необходимо понимать их взаимосвязи для лучшего субтитра. Вот почему это можно рассматривать как иерархическое извлечение признаков. ResNet-152 может справляться со сложными задачами компьютерного зрения. Ключевое преимущество этой модели — эффективное использование остаточных или пропускных соединений. Он очень эффективен в решении проблемы исчезающего градиента. Он может изучать сложные, надёжные признаки для достижения большей точности. ResNet-152 придерживался узкого места, который снижал вычислительные затраты и делал его более эффективным по сравнению с другими архитектурами, такими как VGG-16. У него есть заметная основа трансферного обучения, подходящая для предварительно обученных моделей и различных задач, таких как обнаружение объектов и сегментация данных. Пропускная связь ускоряла обучение и делала его более стабильным. По сравнению с моделью на основе трансформаторов, которая использует механизм самоконцентрации для понимания последовательных данных, ResNet существенно отличается. Модель на основе трансформаторов требует большого объёма данных для глубокого понимания текстовых данных, что даёт эффективные результаты, но работает немного медленнее. Причиной выбора ResNet являются пропускные соединения, которые ускоряют выполнение и значительно улучшают результаты. В области субтитров к изображениям используется ResNet для извлечения признаков, представляющих объект и выполняемое действие на изображении. ResNet использовал остаточную сеть, которая использовала пропускные соединения. Здесь остаточный блок можно вычислить с ссылкой на вход Z как:

Уравнение 5 (5)

где Z считается входом остаточного блока.
Уравнение 6 является остаточной функцией, включающей пакетную нормализацию, сверточные слои и активацию ReLu. {x_i} считается обучающим весом соответствующих слоёв. Z также определяет тождественную связь с пропуском, которая также решает проблему нулевого градиента. ResNet обычно используется как экстрактор признаков для визуального отображения объектов по изображениям. Здесь I рассматривается как входное изображение для представления карт объектов в высоковизуальном представлении признаков V.

Уравнение 8 (6)

Перед извлечением признаков изображение должно быть предварительно обработано для улучшения извлечения признаков. Это считается исходным изображением, собранным из бенчмарка MSCOCO, поэтому первым шагом в предварительной обработке является изменение размера и нормализация изображения.

Уравнение 9 (7)

Уравнение 10 (8)

Где H^l— высота изображения, а W^l — вес изображения. I_resize — это изображение с измененным размером.

Чтобы нормализовать значение пикселя от диапазона [-1, 1] или [0, 1]

Уравнение 15 (9)

Где μ рассматривается как среднее значение пикселя σ рассматривается как стандартное отклонение ссылаемого изображения. Нормализованное изображение теперь дополнительно обрабатывается для извлечения признаков.

Уравнение 18 (10)

где Уравнение 19 рассматривается как вектор признаков. Когда подпись строки токенизируется, она преобразуется в числовой формат.

Уравнение 20 (11)

Если подпись разбивается на слова, то

Уравнение 21 (12)

Здесь важную роль играет словарный запас, и каждое слово уникально идентифицируется с помощью индексирования на основе целых чисел.

Уравнение 22 (13)

где V_c рассматривается как функция словарного запаса; необходимо обеспечить равномерную длину всех последовательностей; поэтому максимальная высота или идеальная длина считается _L-max.

Уравнение 25 (14)

Теперь токены встраиваются как;

Уравнение 26 (15)

для j = 1,2,3, ... .., L_max

где Уравнение 28 рассматривается как встроенный вектор с K размерности; теперь декодер используется для декодирования подписи для генерации кандидатов в подпись, основанной на вероятностной модели.

Уравнение 29 (16)

Где w_j — произведение на временной метке j, w_{1: j-1} — это сгенерированное слово на временной метке j-1, а e_j-1 — встроенный признак с предыдущим словом wj-1. На каждой метке сети, предсказанное следующее слово или вероятность, вычисляется по словарному запасу.

Уравнение 35 (17)

где w — выходной вес, а _b — выходное смещение. Максимальная вероятность вычисляется как

Уравнение 38 (18)

Максимальная длина кандидат-подписи вычисляется после получения или идентификации <конец> слова как специальный токен, например и . Поиск по лучу также полезен для выбора лучшего кандидата подписи, поэтому последовательность выглядит следующим образом:

Уравнение 39 (19)

Уравнение 40 (20)

Таким образом, сгенерированная кандидат-подпись — это последовательность Уравнение 41

Для генерации последовательностей обычно используется долговременная кратковременная память. LSTM использует CNN в качестве экстрактора признаков и последовательно генерирует слова для создания значимых предложений. LSTM вычисляет элемент забытья на каждом временном метке T.

Уравнение 42

Если f t рассматривается как элемент забыть, σ — как функция активации, w_f — как вес, а b_f — как смещение,

y_t рассматривается как вектор входных признаков, h_t-1 — как скрытое состояние.

Уравнение 48 (22)

Уравнение 49 (23)

J_t рассматривается как вход, Уравнение 106 рассматривается как кандидатное состояние, w_j и_{w c} рассматриваются как вес для входа и кандидатного состояния соответственно, b_j и b_c или считаются смещением.

Уравнение 54 (24)

C_t рассматривается как все состояния, C_t-1 считается предыдущим состоянием.

Уравнение 57 (25)

O t считается выходом, w_o — весом, а b_o — смещением. Для инициализации скрытых и ячейковых состояний требуются следующие вычисления.

Уравнение 61 (26)

Уравнение 62 (27)

Где h_i и C i рассматриваются как состояния скрытой и ячейки соответственно, w_h и _{w c} — веса для состояния скрытой и парусной ячейки соответственно, b_c и b_h считаются смещением, k рассматривается как экстрактор признаков. Последовательность подписи вычисляется следующим образом:

Уравнение 69 (28)

Где T — длина сгенерированной подписи.

254 × 254 × 3 — это изменённое или предварительно обработанное изображение, и I считается входным изображением.

Уравнение 71 (29)

Если W и b рассматриваются как вес и смещение соответственно, то I рассматривается как входные признаки, а ReLU — как функция активации. Это вычисление сверточного слоя. Теперь слой пула можно вычислить как:

Уравнение 72 (30)

После завершения слоя пула; полностью связанный слой можно отображить как:

Уравнение 73 (31)

Где w_f и _{b f} рассматриваются как вес и смещение сети соответственно.

Уравнение 74 (32)

Уравнение 75 (33)

где N рассматривается как пространственная область, а d — как размерность объекта.

Уравнение 76 (34)

Уравнение 77 (35)

Где w_h и b_h рассматриваются как вес и смещение скрытого состояния соответственно, w_c и b_c рассматриваются как вес и смещение состояния клетки соответственно. Подпись может быть сгенерирована как:

Уравнение 78 (36)

Энкодер и декодер
Предлагаемая система кодирует данные для машинного перевода с помощью CNN. В этом случае вход и выход — это последовательности, но их длина может различаться. По одному за раз машина кодирует и декодирует каждый вектор. Используя вектор в качестве отправной точки, машина начинает кодировать и декодировать, а затем продолжает вычисления до финального условного распределения вероятностей. Один из примеров следующий:

Уравнение 80 (37)

Это считается распределением вероятностей.

Система может кодировать данные в виде векторного изображения, а затем их можно декодировать. fc_n (I) считается моделью изображения для понимания изображений.

Уравнение 83 (38)

Уравнение 84 (39)

Уравнение 85 (40)

S₁ — это последующая итерация S₀, а S₂ — последующая итерация S₁. Можно сказать, что каждый вход зависит от выхода предыдущего слоя. Изображения преобразуются CNN в векторы и отправляются на следующий слой, который проходит через все векторы. Здесь используется механизм внимания для последовательного упорядочения слов в осмысленное предложение после того, как RNN расшифровывает векторы в слова.

Уравнение 86 (41)

Где T — длина входа.

Уравнение 87 (42)

Уравнение 88 (43)

k₁, _{k 2}, k₃, k₄, ......, k_t-1 — это скрытые состояния декодирования.

Рисунок 2: Модель кодирования и декодирования. На рисунке представлена структура энкодер-декодер, используемая для субтитра к изображениям, показывая, как признаки изображения кодируются в векторные представления и затем декодируются в последовательные текстовые описания. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Модель процесса
См. рисунок 3, на котором показана блок-схема обучающих модулей, где сначала загружались набор данных и его подписи с основной правдой. После нормализации данных для кодирования CNN модель ResNet инициализируется и обучается с использованием извлечённых признаков. RNN и специфические для системы слова, помеченные маркерами начала и конца, затем могут использоваться для декодирования подписи. Система завершает извлечение, если найдено последнее слово, и N — общее количество слов в кандидатной подписи.

Рисунок 3: Блок-схема модели обучения. На рисунке представлен пошаговый процесс обучения модели, включая предобработку данных, извлечение признаков, обучение модели и оптимизацию. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Блок-схема тестовой модели показана на рисунке 4, где система сначала загружает модели энкодера и декодера, затем загружает модель ResNet и входные данные для извлечения субтитра. Если ошибок декодирования не было, вывод можно сделать от первого до последнего слова. После достижения последнего слова можно получить расшифрованные слова, а подпись создана, используя механизм внимания, чтобы последовательно расположить слова в осмысленном порядке. Размер луча учебной модели — пять лучей, максимальная длина — 20, а размер партии — 128 с 20 эпохами.

Рисунок 4: Блок-схема модели тестирования. На этом рисунке отображён рабочий процесс тестирования, демонстрируя, как входные изображения обрабатываются через обученную модель для генерации субтитров и оценки производительности. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этой фигуры.

Алгоритм субтитра изображений ResNet-152
Инициализируйте входные и выходные параметры, и здесь вход принимается как множество образов MSCOCO как I = (i₁, i₂, i₃, ....... i_N) вместе с аннотацией J = (j₁, j₂, j₃, ......... j_N) а выходные данные вычисляются в виде субтитров. На самом первом этапе требуется ввод, затем предварительно обработайте изображения, изменяя размер соотношения сторон как

Уравнение 92 (44)

Где w и h — исходная ширина и высота изображения, w_new и h_new — изменённые размеры, T_s считается заранее определённым целевым размером (T_s = 224), max(w, h) определяет наибольшую размерность, масштабированную для сохранения соотношения сторон.

После извлечения признака необходимо объявить блок идентичности как

Уравнение 100 (45)

Затем инициализируйте параметры, такие как размер пакета, количество эпох, _{W скрытый}как вес для скрытых слоёв, _W как выходной слой, и B_высота ,_{B смещение} как смещение. После инициализации необходимо вычислить выход сверточного слоя.

Уравнение 101 (46)

Его можно рассматривать как нормальный ReLU-блок, если b_l эквивалентно 1. Но если b_l не равно 1 или не эквивалентно 0, то это будет так:

Уравнение 102 (47)

Затем вычислите осуществимость выживания по

Уравнение 103 (48)

Где F_K рассматривается как осуществимость выживаемости системы, а K берётся для обозначения общего числа блоков в модели. Затем вычислите распределение вероятностей

Уравнение 104 (49)

После вычисления распределения вероятностей строит модель для доступа к ней и декодирования данных с помощью данных.

Уравнение 105 /9500

k₁, _{k 2}, k₃, k₄, ......, k_t-1 — это скрытые состояния декодирования.

При доступе к модели необходимо применять механизмы внимания для генерации субтитров, которые оценивают кандидат-подпись по референсной подписи; итоговые метрики затем можно оценить с помощью BLEU, METEOR, CIDEr и ROUGE.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Программное обеспечение и спецификации среды
Python 3.10 был основным языком программирования для экспериментов. Visual Studio Code использовался для настройки среды разработки (VS Code). Важные библиотеки, используемые в этом исследовании, включают Pickle для сериализации данных, многопроцессорную для параллельной обработки, glob для обработки файлов и PyTorch для разработки моделей глубокого обучения. Аппаратная конфигурация включала 256 ГБ памяти, 8 ГБ оперативной памяти и видеокарту серии NVIDIA G...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В области искусственного интеллекта субтитры для изображений — сложная задача. Субтитры к изображениям были предметом многочисленных исследований, и острое или точное написание субтитров по-прежнему требует высочайшей точности. Для достижения цели субтитров к изображениям можно использовать множество методов машинного обучения, и многочисленные исследования использовали CNN, RNN и ResNet-152. Однако необходимы повышения точности и сокращения времени обработки. Предлагаемая система постро...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Авторы заявляют, что у них нет конкурирующих финансовых интересов или личных отношений, которые могли бы повлиять на работу, описанную в этой статье.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Мы признаем признательность создателям наборов данных MSCOCO за предоставление эталонов, использованных в этом исследовании. Авторы заявляют, что внешнее финансирование для этого исследования не было получено.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	AMD Ryzen 5000 Series - это линейка высокопроизводительных процессоров, разработанных компанией AMD на основе архитектуры Zen 3. Эти процессоры широко используются в настольных и портативных компьютерах для как обычных вычислений, так и вычислений с высокой нагрузкой, таких как обработка данных и рабочие процессы машинного обучения.
GPU	NVIDIA	4.71933E+12	NVIDIA GeForce GTX - это серия графических процессоров (GPU), разработанных компанией NVIDIA, широко используемых для игр, а также для задач общего назначения, таких как машинное обучение и обработка изображений.
Intel Core i5	Intel	BX8071514400F	Intel Core i5 - это серия процессоров среднего класса, разработанная компанией Intel, широко используемая в персональных компьютерах для как обычных, так и вычислительных задач.
Python 3.10	Python Software Foundation	PEP 619	Python - это высокоуровневый, интерпретируемый язык программирования, широко используемый в научных вычислениях, анализе данных и машинном обучении. Он известен своей простотой, удобочитаемостью и обширным экосистемой библиотек.
PyTorch	Facebook	26.03-py3	PyTorch - это открытый фреймворк для машинного обучения, разработанный компанией Meta Platforms (ранее Facebook), широко используемый для создания и обучения нейронных сетей в исследованиях и промышленности.
Visual Studio Code	Microsoft	None	Visual Studio Code (VS Code) - это легковесный, открытый кодовый редактор, разработанный компанией Microsoft. Он широко используется для разработки программного обеспечения, включая проекты машинного и глубокого обучения.
Windows 11	Microsoft	KB5083631	Windows 11 - это операционная система, разработанная компанией Microsoft, широко используемая для общих вычислений, а также для задач по разработке программного обеспечения и машинного обучения.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Генерация подписей к изображениям с использованием методов глубокого обучения

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles