Generación de pies de foto utilizando enfoques de aprendizaje profundo

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

Generación de pies de foto utilizando enfoques de aprendizaje profundo

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Este protocolo utiliza CNNs, RNNs y ResNets para el subtitulado de imágenes, extrayendo descripciones de las actividades, personas, objetos y otros elementos de las imágenes. Se ha justificado con puntuaciones de BLEU, CIDEr, METEOR y ROUGE.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La generación de pies de foto es un esfuerzo por proporcionar una descripción textual significativa que involucre una imagen. La información extraída es relevante para las actividades presentes en las imágenes. ResNet (Red Residual) es bien conocida por su capacidad para clasificar imágenes, habiendo desarrollado representaciones jerárquicas profundas. La intención de este artículo es utilizar ResNet con varios filtros inteligentes para clasificar las imágenes de forma más profunda, permitiendo la generación de descripciones genuinas y significativas que sean muy precisas respecto a los pies de foto de referencia. Aquí, el trabajo utiliza una técnica de filtrado inteligente para mejorar imágenes, una CNN para codificar características, entrenamiento de modelos y, posteriormente, una RNN (Red Neuronal Recurrente) para decodificar las características. ResNet es un modelo muy eficaz para tareas de visión por ordenador, especialmente para la clasificación de objetos y el análisis semántico. ResNet es bien conocido por sus conexiones residuales, que también se conocen como conexiones de salto que resuelven el problema del gradiente nulo, un problema crucial en el aprendizaje profundo. Aquí, se utiliza el benchmark MSCOCO (Microsoft Common Object in Context) para entrenar el modelo, que es un gran conjunto de datos con anotaciones de referencia útiles para diversas tareas de visión por ordenador. ResNet ayuda a mejorar la capacidad de generalización, lo cual es especialmente útil para imágenes diversas. Según los resultados obtenidos, las puntuaciones BLUE son B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEORITO: 0,195; ROUGE: 0,396; y CIDEr: 0,6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

En los campos de la visión por ordenador y el procesamiento del lenguaje natural, el subtítulo de imágenes es una tarea crucial que extrae una descripción de la imagen y las acciones que representa. La intención del modelo es comprender las imágenes y traducir la información en frases o pies de foto con sentido¹. Todo el procedimiento consta de dos fases importantes: la primera es la extracción de características, donde se utiliza un modelo CNN; la segunda es la descripción de la imagen usando un RNN y, entre medias, ResNet se utiliza para análisis semántico, generación de secuencias y un mecanismo de atención. ResNet es muy diferente de los métodos basados en plantillas o de los módulos basados en DenseNet porque utiliza conexiones de salto que reducen el tiempo de ejecución y mejoran el rendimiento. Existen numerosas aplicaciones de la leyenda de imágenes que incluyen ayudar a personas con discapacidad visual, mejorar las plataformas de redes sociales, optimizar motores de búsqueda basados en imágenes, IA basada en imágenes (inteligencia artificial) y muchas^{más. 2}.

En visión por ordenador, el reconocimiento de escenas es el proceso de identificar y clasificar el contexto o entorno general de la imagen, como una playa, un paisaje urbano, un bosque u una oficina. A diferencia del reconocimiento de objetos, que se centra en objetos individuales, el reconocimiento de escenas considera texturas, disposiciones espaciales y relaciones entre objetos para comprender el contexto más amplio. Utiliza CNN y Vision Transformers, modelos de aprendizaje profundo entrenados con grandes conjuntos de datos como Places365 e ImageNet. Las aplicaciones incluyen vigilancia de seguridad, realidad aumentada y virtual (AR y VR) para experiencias inmersivas, robótica para la concienciación ambiental y vehículos autónomos para la navegación. A pesar de los avances, problemas como los cambios de puntos de vista, las oclusiones y la iluminación cambiante hacen que el reconocimiento de escenas sea un tema candente en la investigación en visión por ordenador e inteligencia artificial. Otro problema fundamental en la visión por ordenador es el reconocimiento de escenas.

EnsCaption, un modelo de red generativa antagónica dual, fue propuesto para mejorar una técnica de conjunto^{generación-recuperación 3}. Este diseño permite métodos armoniosos de subtitulado de imágenes basados en la procreación que generan subtítulos alineados con los objetivos existentes. Mientras que la técnica basada en recuperación utiliza un modelo basado en posición o gradación para seleccionar el mejor modelo para extraer información con mayor precisión que los demás en la consulta basada en imágenes. Se introdujo una asignación de imágenes a un "espacio de significado" utilizando componentes visuales como objetos, actividades y escenas, que luego se alineaban con las plantillas verbales^{correspondientes 4}. Utilizando las correlaciones y cualidades encontradas en las imágenes, el enfoque construye frases. Las frases expresan la información de forma rica, condensada y sutil. La generación de subtítulos basada en plantillas se mejoró incorporando conocimientos de sentido común para mejorar la comprensión^{semántica 5}. Esta técnica amplió el alcance de la plantilla más allá de las características directas de la imagen para abarcar asociaciones inferidas. Este trabajo utiliza un conjunto de datos existente de detección de objetos para extraer 16.000 afirmaciones de sentido común para cada categoría anotada. Además, se logró la generalización usando WordNet, lo que permitió la inducción de un gran número de hechos sobre objetos previamente^{invisibles 6}. Ofrece una revisión de una taxonomía organizada de técnicas de aprendizaje profundo para subtítulos de imágenes, incluyendo temas como mecanismos de atención, tácticas de aprendizaje por refuerzo y marcos codificador-decodificador. Además de abordar cuestiones como la alucinación de objetos y la comprensión contextual, también examina conjuntos de datos y criterios de evaluación comúnmente utilizados. Los autores señalan áreas para un estudio más profundo, como la mejora de las técnicas de preentrenamiento visión-lenguaje y la reducción del sesgo en el conjunto de datos. Se exploró un enfoque de análisis semántico basado en redes neuronales convolucionales y redes neuronales recurrentes para las tareas de subtitulado^{de imágenes 7}. El subtítulo de imágenes es uno de los usos más conocidos, permitiendo a los ordenadores producir frases evocadoras que encapsulan una imagen. Para proporcionar descripciones semánticas significativas y de alto nivel, este procedimiento implica más que simplemente identificar objetos y escenas; También implica examinar sus estados, características e interacciones. A pesar de la complejidad y dificultad inherentes a la creación de subtítulos de imágenes, los académicos han logrado avances impresionantes en este ámbito. Las tres principales técnicas de subtitulado de imágenes basadas en redes neuronales profundas que se abordan en este estudio son los frameworks basados en CNN-RNN, CNN-CNN y frameworks de aprendizaje por refuerzo. Se introdujo un modelo entrenable de extremo a extremo para el subtitulado de imágenes, que integraba visión por ordenador y procesamiento de lenguaje natural para generar descripciones coherentes de las^{imágenes 8}. Para crear un pie de foto, utiliza un marco codificador-decodificador en el que un LSTM decodifica una imagen en una cadena de palabras después de que una CNN preentrenada la codifique en un vector de características. A pesar de sus inconvenientes, como los problemas con los escenarios complejos, la contribución del artículo a los trabajos de lenguaje visual sigue siendo fundamental^.

ResNet es la red neuronal convolucional (CNN) utilizada en el modelo de subtítulos de imágenes de la obra propuesta para extraer información visual rica de las imágenes de entrada. ResNet actúa como codificador para producir un vector de características que representa la imagen, lo que normalmente se utiliza en una arquitectura codificador-decodificador. El decodificador, que genera leyendas descriptivas palabra por palabra, recibe estas características y a menudo se implementa usando una red neuronal recurrente (RNN), como LSTM o GRU. Se puede añadir un mecanismo de atención para mejorar el rendimiento permitiendo que el decodificador se centre en regiones específicas de la imagen a medida que genera cada palabra. Para maximizar la precisión de los subtítulos, el modelo se entrena de extremo a extremo usando una función de pérdida como entropía cruzada y un conjunto de datos como COCO. El aprendizaje por transferencia y el ajuste fino de ResNet pueden mejorar la extracción de características, fortaleciendo aún más el modelo y permitiéndole producir leyendas de alta calidad y contextualmente adecuadas en una amplia gama de imágenes. En la leyenda de imágenes, ResNet suele preferirse sobre otros modelos porque aborda eficazmente el problema del gradiente nulo, un problema común en redes neuronales profundas. Esto es posible gracias a sus novedosos enfoques de aprendizaje residual, que entrenan redes considerablemente más profundas sin sacrificar rendimiento mediante conexiones de salto para facilitar el flujo de gradiente durante la retropropagación. El perceptrón multicapa, una red neuronal feed-forward totalmente conectada, está asociado a la capa entrenólable. La RNN luego decodifica los subtítulos usando la capa softmax, produciendo los subtítulos candidatos. La función de activación es f(x), la función identidad hacia adelante es f(x) + x, y x se considera identidad, como se ilustra en la Figura 1. En este caso, el sistema utiliza bloques residuales para calibrar el modelo durante el entrenamiento, y sus entradas pasan tanto por conexiones de peso como por conexiones de salto, también conocidas como atajos de identidad.

Figura 1: Red de conexión residual. Esta figura ilustra la arquitectura de una red residual, destacando conexiones de salto que mejoran el flujo de gradientes y mitigan gradientes nulos durante el entrenamiento profundo de red. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Supongamos que P_l es la salida; I es el número de bloques residuales; ReLU se supone que es un bloque habitual si está cerca de 1, pero si no es igual a 1, entonces puede calcularse como:

Ecuación 1 (1)

Aquí, b es la variable aleatoria y k es la función de mapeo.

Ecuación 2 (2)

Aquí s_l se considera como la probabilidad de supervivencia del sistema propuesto;

Ecuación 3 (3)

La regla resultante para la probabilidad de supervivencia como;

Ecuación 4 (4)

Donde S_L se supone que tiene probabilidad de supervivencia y L se supone que es el número total. de bloques.

El subtítulo de imágenes es una tarea desafiante que combina el procesamiento del lenguaje natural y la visión por ordenador para producir leyendas textuales descriptivas para las imágenes. Para ello, hay que comprender e interpretar el contenido visual de una imagen y traducirla en frases coherentes dentro de su contexto. En este campo, contar con conjuntos de datos extensos y diversos es crucial para la evaluación y el entrenamiento de modelos. Estos conjuntos de datos ofrecen una amplia variedad de imágenes y anotaciones relacionadas, que son cruciales para desarrollar y probar algoritmos de subtitulación de imágenes. Los conjuntos de datos más utilizados son MSCOCO y Flickr30k, que contienen millones de imágenes y plantean diversos retos en el procesamiento de imágenes. MSCOCO es mucho más grande que Flickr30k11. El conjunto de datos MS COCO se ha dividido en los siguientes conjuntos: 82.783 imágenes para entrenamiento, 40.504 para validación y 40.775 para pruebas.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La implementación se ha realizado con el modelo principal, que es ResNet-152, junto con un codificador como CNN, un decodificador como RNN y los recursos de la Tabla de Materiales.

ResNet-152
ResNet se considera la columna vertebral para extraer características de forma más eficiente en la creación de imágenes de texto. ResNet ofrecía un mejor rendimiento de entrenamiento que otros modelos, ya que abordaba el problema del gradiente nulo y lo resolvía de forma eficiente. En las imágenes pueden aparecer varios objetos, y el modelo necesita entender sus relaciones para obtener mejores subtítulos. Por eso puede considerarse una extracción jerárquica de características. ResNet-152 puede gestionar tareas complejas de visión por ordenador. La principal ventaja de este modelo es el uso efectivo de conexiones residuales o de salto. Es muy eficaz para abordar el problema del gradiente nulo. Puede aprender características complejas y robustas para lograr mayor precisión. ResNet-152 siguió un diseño de cuello de botella que redujo el coste computacional y lo hizo más eficaz que otras arquitecturas, como VGG-16. Cuenta con una columna vertebral destacada de aprendizaje por transferencia, adecuada para modelos preentrenados y tareas variadas como la detección de objetos y la segmentación de datos. La conexión de salto aceleró el entrenamiento y lo hizo más estable. En comparación con el modelo basado en transformadores, que utiliza un mecanismo de autoatención para entender datos secuenciales, ResNet es bastante diferente. Un modelo basado en transformadores requiere una gran cantidad de datos para un conocimiento profundo de los datos textuales, lo que produce resultados efectivos pero funciona un poco más lento. La motivación para elegir ResNet son sus conexiones de salto, que aceleran la ejecución con una mejora significativa en los resultados. En el ámbito de la leyenda de imágenes, ResNet se utiliza para extraer las características que representan el objeto y la acción realizada en la imagen. ResNet utilizaba una red residual que aprovechaba las conexiones de salto. Aquí, el bloque residual puede calcularse con referencia a la entrada Z como:

Ecuación 5 (5)

Donde Z se considera la entrada del bloque residual.
Ecuación 6 es una función residual que implica la normalización por lotes, capas convolucionales y activación de ReLu. {_{x i}} se considera el peso de aprendizaje de las capas correspondientes. Z también define la identidad de la conexión de salto, que también resuelve el problema del gradiente nulo. ResNet se utiliza generalmente como extractor de características para el mapeo visual de características a partir de las imágenes. Aquí, I se considera la imagen de entrada para representar los mapas de características en una alta representación visual de características, V.

Ecuación 8 (6)

Antes de extraer características, la imagen debe ser preprocesada para mejorar la extracción de características. Se considera una imagen en bruto recogida del benchmark MSCOCO, por lo que el primer paso en el preprocesamiento es redimensionarla y normalizarla.

Ecuación 9 (7)

Ecuación 10 (8)

Donde H^les la altura de la imagen y W^l es el peso de la imagen. _Redimensiono la imagen redimensionada.

Para normalizar el valor del píxel desde el rango [-1, 1] o [0, 1]

Ecuación 15 (9)

Donde μ es el valor medio del píxel σ se considera la desviación estándar de la imagen referenciada. La imagen normalizada ahora se procesa más para la extracción de características.

Ecuación 18 (10)

Donde Ecuación 19 se considera el vector de características. Cuando el subtítulo de fila se tokeniza, se convierte al formato numérico.

Ecuación 20 (11)

Si el pie de foto se divide en palabras entonces

Ecuación 21 (12)

Aquí, el vocabulario juega un papel importante, ya que cada palabra se identifica de forma única mediante la indexación basada en enteros.

Ecuación 22 (13)

Donde V_c se considera una función de vocabulario; hay que asegurarse de que todas las secuencias tengan una longitud pareja; por lo tanto, la altura máxima o longitud ideal se considera como L_máx.

Ecuación 25 (14)

Ahora el token se incrusta como;

Ecuación 26 (15)

para j = 1,2,3, ... .., L_máximo

Donde Ecuación 28 se considera como un vector incrustado con K dimensiones; ahora el decodificador se debe usar para decodificar el subtítulo para la generación de subtítulos candidatos, que se basa en un modelo probabilístico.

Ecuación 29 (16)

Donde w_j es una obra en la marca de tiempo j, w_{1: j-1} es la palabra generada en la marca de tiempo j-1 y e_j-1 es la característica incrustada con la palabra anterior wj-1. En cada marca de tiempo, la red predecía la siguiente palabra o la probabilidad que se calculaba sobre el vocabulario.

Ecuación 35 (17)

Donde la_salida w es el peso de salida y la_salida b es el sesgo de salida. Así que la probabilidad máxima se calcula como

Ecuación 38 (18)

La longitud máxima del pie de foto candidato se calcula una vez que se recibe o identifica la palabra como un token especial como y . La búsqueda por haz también es útil para seleccionar la mejor leyenda candidata, por lo que la secuencia es:

Ecuación 39 (19)

Ecuación 40 (20)

Así, el candidato generado es la secuencia de Ecuación 41

La memoria a corto plazo se utiliza generalmente en la generación de secuencias. LSTM utiliza una CNN como extractor de características y genera palabras secuencialmente para crear oraciones significativas. LSTM calcula la puerta de olvido en cada marca temporal T.

Ecuación 42

Donde f_t se considera como la puerta de olvido, σ se considera como función de activación, w_f se considera peso y _{b f} como sesgo,

Y_t se considera como vector de características de entrada, H_T-1 se considera estado oculto.

Ecuación 48 (22)

Ecuación 49 (23)

J_t se considera como entrada, Ecuación 106 se considera estado candidato, w_j y_{w c} se consideran como peso para entrada y estado candidato respectivamente, b_j y_{b c} o considerado como sesgo.

Ecuación 54 (24)

C_t se considera como estado total, C_t-1 se considera estado anterior.

Ecuación 57 (25)

O_t se considera como salida, w_o como peso y b_o como sesgo. Para inicializar los estados oculto y celda, se requieren los siguientes cálculos.

Ecuación 61 (26)

Ecuación 62 (27)

Donde h_i y C_i se consideran como estado oculto y celda, respectivamente, w_h y w_c son pesos para el estado oculto y celda vela respectivamente, b_c y b_h se consideran como sesgo, k se considera como extractor de características. La secuencia del pie de foto se calcula como:

Ecuación 69 (28)

Donde T es la longitud del pie de foto generado.

254 × 254 × 3 es la imagen redimensionada o preprocesada, y I se considera la imagen de entrada.

Ecuación 71 (29)

Donde W y b se consideran como peso y sesgo, respectivamente, I se considera como características de entrada, y ReLU es la función de activación. Es el cálculo de la capa convolucional. Ahora la capa de agrupación puede calcularse como:

Ecuación 72 (30)

Tras finalizar la capa de pooling; La capa totalmente conectada puede asignarse como:

Ecuación 73 (31)

Donde w_f y b_f se consideran como peso y sesgo de la red respectivamente.

Ecuación 74 (32)

Ecuación 75 (33)

Donde N se considera como la región espacial y d como la dimensión de la característica.

Ecuación 76 (34)

Ecuación 77 (35)

Donde w_h y b_h se consideran como peso y sesgo del estado oculto, respectivamente, w_c y b_c como peso y sesgo del estado celular, respectivamente. Los subtítulos pueden generarse como:

Ecuación 78 (36)

Codificador y decodificador
El sistema propuesto codifica los datos para la traducción automática mediante una CNN. En este caso, la entrada y la salida son ambas secuencias, aunque pueden diferir en longitud. Uno a uno, la máquina codifica y decodifica cada vector. Usando un vector como punto de partida, la máquina comienza a codificar y decodificar, y continúa calculando hasta la distribución de probabilidad condicional final. Un ejemplo es el siguiente:

Ecuación 80 (37)

Esto se considera la distribución de probabilidad.

El sistema puede codificar los datos en forma de imagen vectorial, y posteriormente puede ser decodificado. fc_n (I) se considera el modelo de imagen para la comprensión de imágenes.

Ecuación 83 (38)

Ecuación 84 (39)

Ecuación 85 (40)

S₁ es la iteración posterior de S₀, y S₂ es la iteración posterior de S₁. Se podría decir que cada entrada depende de la salida de la capa anterior. Las imágenes se convierten en vectores por CNN y se envían a la siguiente capa, que recorre todos los vectores. Aquí, se utiliza un mecanismo de atención para organizar secuencialmente las palabras en una oración significativa después de que la RNN decodifica los vectores en palabras.

Ecuación 86 (41)

Donde T es la longitud de la entrada.

Ecuación 87 (42)

Ecuación 88 (43)

k₁, k₂, k₃, k₄, ......, k_t-1 son estados de decodificación ocultos.

Figura 2: Modelo de codificación y decodificación. Esta figura presenta el marco codificador–decodificador utilizado para la creación de imágenes de imágenes, mostrando cómo las características de la imagen se codifican en representaciones vectoriales y posteriormente se decodifican en descripciones textuales secuenciales. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Modelo de proceso
Véase la Figura 3, que muestra el diagrama de flujo del módulo de entrenamiento, donde se cargaron primero el conjunto de datos y sus leyendas de verdad. Una vez normalizados los datos para la codificación CNN, el modelo ResNet se inicializa y entrena utilizando las características extraídas. RNN y las palabras específicas del sistema etiquetadas con marcadores de inicio y fin pueden usarse para decodificar el pie de foto. El sistema completa la extracción si se encuentra la última palabra, y N es el número total de palabras en el pie de foto candidato.

Figura 3: Diagrama de flujo del modelo de entrenamiento. Esta figura describe el proceso paso a paso implicado en el entrenamiento del modelo, incluyendo el preprocesamiento de datos, la extracción de características, el aprendizaje del modelo y la optimización. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

El diagrama de flujo del modelo de pruebas se muestra en la Figura 4, donde el sistema primero carga los modelos codificador y decodificador, luego carga el modelo ResNet y los datos de entrada para la extracción de subtítulos. Si no ha habido errores de decodificación, se puede inferir desde la primera hasta la última palabra. Una vez alcanzada la palabra final, se pueden obtener palabras descodificadas y crear un pie de foto empleando un mecanismo de atención para ordenar secuencialmente las palabras de forma significativa. El tamaño de la viga del modelo de entrenamiento es de cinco con una longitud máxima de 20, y su tamaño de lote es de 128 con 20 épocas.

Figura 4: Diagrama de flujo del modelo de pruebas. Esta figura muestra el flujo de trabajo de pruebas, demostrando cómo se procesan las imágenes de entrada a través del modelo entrenado para generar pies de foto y evaluar el rendimiento. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Algoritmo de subtítulos de imágenes ResNet-152
Inicializa los parámetros de entrada y salida, y aquí la entrada se toma como el conjunto de imágenes MSCOCO como I = (i₁, i₂, _{i 3}, ....... i_N) junto con la anotación J = (j₁, j₂, j₃, ......... j_N) y la salida se calcula como subtítulos. En el primer paso se requiere la entrada, luego preprocesar las imágenes redimensionando la relación de aspecto como

Ecuación 92 (44)

Donde w y h son el ancho y altura originales de la imagen, w_nuevo y h_nuevo son las dimensiones redimensionadas, T_s se considera un tamaño objetivo predefinido (T_s = 224), max(w, h) define la dimensión más grande, que se ha escalado para mantener la relación de aspecto.

Tras la extracción de características, es necesario declarar el bloque identidad como

Ecuación 100 (45)

Luego inicializa los parámetros como el tamaño del lote, el número de épocas, W_ocultocomo peso para capas ocultas, W_salida como capa de salida, y B_altura , B_sesgocomo sesgo. Una vez realizada la inicialización, se requiere calcular la salida de la capa convolucional.

Ecuación 101 (46)

Puede considerarse un bloque ReLU normal si b_l es equivalente a 1. Pero si b_l no es igual a 1 ni equivalente a 0, entonces sería;

Ecuación 102 (47)

Luego calcula la viabilidad de supervivencia mediante

Ecuación 103 (48)

Donde F_K se considera la viabilidad de supervivencia del sistema, y K se toma como la representación del número total de bloques en el modelo. Luego calcula la distribución de probabilidad

Ecuación 104 (49)

Una vez calculada la distribución de probabilidad, construye el modelo para acceder a ella y decodificar los datos utilizando.

Ecuación 105 /9500

k₁, k₂, k₃, k₄, ......, k_t-1 son estados de decodificación ocultos.

Al acceder al modelo, se requiere aplicar mecanismos de atención para la generación de subtítulos que evalúen el candidato frente al subtítulo de referencia; las métricas finales pueden evaluarse usando BLEU, METEOR, CIDEr y ROUGE.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Especificaciones de software y entorno
Python 3.10 fue el principal lenguaje de programación utilizado para los experimentos. Visual Studio Code se utilizó para configurar el entorno de desarrollo (VS Code). Las bibliotecas importantes utilizadas en esta investigación incluyen Pickle para serialización de datos, multiprocesamiento para procesamiento paralelo, glob para manejo de archivos y PyTorch para el desarrollo de modelos de aprendizaje profundo. La configuración de hardware incluía 256 GB de alm...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

En el ámbito de la inteligencia artificial, subtitular imágenes es una tarea difícil. El subtitulado de imágenes ha sido objeto de numerosos estudios, y el subtitulado agudo o preciso sigue requiriendo el más alto nivel de precisión. Muchas técnicas de aprendizaje automático pueden utilizarse para lograr el objetivo del subtítulo de imágenes, y numerosos estudios han utilizado CNN, RNN y ResNet-152. Sin embargo, es necesario aumentar la precisión y reducir el tiempo de procesado. El sist...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Los autores declaran que no tienen intereses financieros en competencia ni relaciones personales que pudieran haber influido en el trabajo reportado en este artículo.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Agradecemos a los creadores de los conjuntos de datos de MSCOCO por proporcionar los puntos de referencia utilizados en este estudio. Los autores afirman que no se recibió financiación externa para este estudio.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	La serie AMD Ryzen 5000 es una línea de procesadores de alto rendimiento desarrollados por AMD, basada en la arquitectura Zen 3. Estos procesadores se utilizan ampliamente en computadoras de escritorio y portátiles para computación de propósito general y tareas exigentes como procesamiento de datos y flujos de trabajo de aprendizaje automático.
GPU	NVIDIA	4.71933E+12	La serie NVIDIA GeForce GTX es una serie de unidades de procesamiento gráfico (GPU) desarrolladas por NVIDIA, ampliamente utilizadas para juegos, así como para tareas de computación de propósito general como aprendizaje profundo y procesamiento de imágenes.
Intel Core i5	Intel	BX8071514400F	Intel Core i5 es una serie de procesadores de gama media desarrollados por Intel, ampliamente utilizados en computadoras personales tanto para tareas de propósito general como computacionales.
Python 3.10	Python Software Foundation	PEP 619	Python es un lenguaje de programación interpretado de alto nivel ampliamente utilizado en computación científica, análisis de datos y aprendizaje automático. Es conocido por su simplicidad, legibilidad y extenso ecosistema de bibliotecas.
PyTorch	Facebook	26.03-py3	PyTorch es un marco de aprendizaje profundo de código abierto desarrollado por Meta Platforms (anteriormente Facebook), ampliamente utilizado para construir y entrenar redes neuronales en investigación e industria.
Visual Studio Code	Microsoft	None	Visual Studio Code (VS Code) es un editor de código abierto y ligero desarrollado por Microsoft. Se utiliza ampliamente para el desarrollo de software, incluyendo proyectos de aprendizaje automático y aprendizaje profundo.
Windows 11	Microsoft	KB5083631	Windows 11 es un sistema operativo desarrollado por Microsoft, ampliamente utilizado para computación general, así como para tareas de desarrollo de software y aprendizaje automático.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Generación de pies de foto utilizando enfoques de aprendizaje profundo

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles