Este protocolo utiliza CNNs, RNNs y ResNets para el subtitulado de imágenes, extrayendo descripciones de las actividades, personas, objetos y otros elementos de las imágenes. Se ha justificado con puntuaciones de BLEU, CIDEr, METEOR y ROUGE.
Research Article
June 12th, 2026
Este protocolo utiliza CNNs, RNNs y ResNets para el subtitulado de imágenes, extrayendo descripciones de las actividades, personas, objetos y otros elementos de las imágenes. Se ha justificado con puntuaciones de BLEU, CIDEr, METEOR y ROUGE.
La generación de pies de foto es un esfuerzo por proporcionar una descripción textual significativa que involucre una imagen. La información extraída es relevante para las actividades presentes en las imágenes. ResNet (Red Residual) es bien conocida por su capacidad para clasificar imágenes, habiendo desarrollado representaciones jerárquicas profundas. La intención de este artículo es utilizar ResNet con varios filtros inteligentes para clasificar las imágenes de forma más profunda, permitiendo la generación de descripciones genuinas y significativas que sean muy precisas respecto a los pies de foto de referencia. Aquí, el trabajo utiliza una técnica de filtrado inteligente para mejorar imágenes, una CNN para codificar características, entrenamiento de modelos y, posteriormente, una RNN (Red Neuronal Recurrente) para decodificar las características. ResNet es un modelo muy eficaz para tareas de visión por ordenador, especialmente para la clasificación de objetos y el análisis semántico. ResNet es bien conocido por sus conexiones residuales, que también se conocen como conexiones de salto que resuelven el problema del gradiente nulo, un problema crucial en el aprendizaje profundo. Aquí, se utiliza el benchmark MSCOCO (Microsoft Common Object in Context) para entrenar el modelo, que es un gran conjunto de datos con anotaciones de referencia útiles para diversas tareas de visión por ordenador. ResNet ayuda a mejorar la capacidad de generalización, lo cual es especialmente útil para imágenes diversas. Según los resultados obtenidos, las puntuaciones BLUE son B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEORITO: 0,195; ROUGE: 0,396; y CIDEr: 0,6.
En los campos de la visión por ordenador y el procesamiento del lenguaje natural, el subtítulo de imágenes es una tarea crucial que extrae una descripción de la imagen y las acciones que representa. La intención del modelo es comprender las imágenes y traducir la información en frases o pies de foto con sentido1. Todo el procedimiento consta de dos fases importantes: la primera es la extracción de características, donde se utiliza un modelo CNN; la segunda es la descripción de la imagen usando un RNN y, entre medias, ResNet se utiliza para análisis semántico, generación de secuencias y un mecanismo de atención. ResNet es muy diferente de los métodos basados en plantillas o de los módulos basados en DenseNet porque utiliza conexiones de salto que reducen el tiempo de ejecución y mejoran el rendimiento. Existen numerosas aplicaciones de la leyenda de imágenes que incluyen ayudar a personas con discapacidad visual, mejorar las plataformas de redes sociales, optimizar motores de búsqueda basados en imágenes, IA basada en imágenes (inteligencia artificial) y muchasmás. 2.
En visión por ordenador, el reconocimiento de escenas es el proceso de identificar y clasificar el contexto o entorno general de la imagen, como una playa, un paisaje urbano, un bosque u una oficina. A diferencia del reconocimiento de objetos, que se centra en objetos individuales, el reconocimiento de escenas considera texturas, disposiciones espaciales y relaciones entre objetos para comprender el contexto más amplio. Utiliza CNN y Vision Transformers, modelos de aprendizaje profundo entrenados con grandes conjuntos de datos como Places365 e ImageNet. Las aplicaciones incluyen vigilancia de seguridad, realidad aumentada y virtual (AR y VR) para experiencias inmersivas, robótica para la concienciación ambiental y vehículos autónomos para la navegación. A pesar de los avances, problemas como los cambios de puntos de vista, las oclusiones y la iluminación cambiante hacen que el reconocimiento de escenas sea un tema candente en la investigación en visión por ordenador e inteligencia artificial. Otro problema fundamental en la visión por ordenador es el reconocimiento de escenas.
EnsCaption, un modelo de red generativa antagónica dual, fue propuesto para mejorar una técnica de conjuntogeneración-recuperación 3. Este diseño permite métodos armoniosos de subtitulado de imágenes basados en la procreación que generan subtítulos alineados con los objetivos existentes. Mientras que la técnica basada en recuperación utiliza un modelo basado en posición o gradación para seleccionar el mejor modelo para extraer información con mayor precisión que los demás en la consulta basada en imágenes. Se introdujo una asignación de imágenes a un "espacio de significado" utilizando componentes visuales como objetos, actividades y escenas, que luego se alineaban con las plantillas verbalescorrespondientes 4. Utilizando las correlaciones y cualidades encontradas en las imágenes, el enfoque construye frases. Las frases expresan la información de forma rica, condensada y sutil. La generación de subtítulos basada en plantillas se mejoró incorporando conocimientos de sentido común para mejorar la comprensiónsemántica 5. Esta técnica amplió el alcance de la plantilla más allá de las características directas de la imagen para abarcar asociaciones inferidas. Este trabajo utiliza un conjunto de datos existente de detección de objetos para extraer 16.000 afirmaciones de sentido común para cada categoría anotada. Además, se logró la generalización usando WordNet, lo que permitió la inducción de un gran número de hechos sobre objetos previamenteinvisibles 6. Ofrece una revisión de una taxonomía organizada de técnicas de aprendizaje profundo para subtítulos de imágenes, incluyendo temas como mecanismos de atención, tácticas de aprendizaje por refuerzo y marcos codificador-decodificador. Además de abordar cuestiones como la alucinación de objetos y la comprensión contextual, también examina conjuntos de datos y criterios de evaluación comúnmente utilizados. Los autores señalan áreas para un estudio más profundo, como la mejora de las técnicas de preentrenamiento visión-lenguaje y la reducción del sesgo en el conjunto de datos. Se exploró un enfoque de análisis semántico basado en redes neuronales convolucionales y redes neuronales recurrentes para las tareas de subtituladode imágenes 7. El subtítulo de imágenes es uno de los usos más conocidos, permitiendo a los ordenadores producir frases evocadoras que encapsulan una imagen. Para proporcionar descripciones semánticas significativas y de alto nivel, este procedimiento implica más que simplemente identificar objetos y escenas; También implica examinar sus estados, características e interacciones. A pesar de la complejidad y dificultad inherentes a la creación de subtítulos de imágenes, los académicos han logrado avances impresionantes en este ámbito. Las tres principales técnicas de subtitulado de imágenes basadas en redes neuronales profundas que se abordan en este estudio son los frameworks basados en CNN-RNN, CNN-CNN y frameworks de aprendizaje por refuerzo. Se introdujo un modelo entrenable de extremo a extremo para el subtitulado de imágenes, que integraba visión por ordenador y procesamiento de lenguaje natural para generar descripciones coherentes de lasimágenes 8. Para crear un pie de foto, utiliza un marco codificador-decodificador en el que un LSTM decodifica una imagen en una cadena de palabras después de que una CNN preentrenada la codifique en un vector de características. A pesar de sus inconvenientes, como los problemas con los escenarios complejos, la contribución del artículo a los trabajos de lenguaje visual sigue siendo fundamental.
ResNet es la red neuronal convolucional (CNN) utilizada en el modelo de subtítulos de imágenes de la obra propuesta para extraer información visual rica de las imágenes de entrada. ResNet actúa como codificador para producir un vector de características que representa la imagen, lo que normalmente se utiliza en una arquitectura codificador-decodificador. El decodificador, que genera leyendas descriptivas palabra por palabra, recibe estas características y a menudo se implementa usando una red neuronal recurrente (RNN), como LSTM o GRU. Se puede añadir un mecanismo de atención para mejorar el rendimiento permitiendo que el decodificador se centre en regiones específicas de la imagen a medida que genera cada palabra. Para maximizar la precisión de los subtítulos, el modelo se entrena de extremo a extremo usando una función de pérdida como entropía cruzada y un conjunto de datos como COCO. El aprendizaje por transferencia y el ajuste fino de ResNet pueden mejorar la extracción de características, fortaleciendo aún más el modelo y permitiéndole producir leyendas de alta calidad y contextualmente adecuadas en una amplia gama de imágenes. En la leyenda de imágenes, ResNet suele preferirse sobre otros modelos porque aborda eficazmente el problema del gradiente nulo, un problema común en redes neuronales profundas. Esto es posible gracias a sus novedosos enfoques de aprendizaje residual, que entrenan redes considerablemente más profundas sin sacrificar rendimiento mediante conexiones de salto para facilitar el flujo de gradiente durante la retropropagación. El perceptrón multicapa, una red neuronal feed-forward totalmente conectada, está asociado a la capa entrenólable. La RNN luego decodifica los subtítulos usando la capa softmax, produciendo los subtítulos candidatos. La función de activación es f(x), la función identidad hacia adelante es f(x) + x, y x se considera identidad, como se ilustra en la Figura 1. En este caso, el sistema utiliza bloques residuales para calibrar el modelo durante el entrenamiento, y sus entradas pasan tanto por conexiones de peso como por conexiones de salto, también conocidas como atajos de identidad.

Figura 1: Red de conexión residual. Esta figura ilustra la arquitectura de una red residual, destacando conexiones de salto que mejoran el flujo de gradientes y mitigan gradientes nulos durante el entrenamiento profundo de red. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
Supongamos que Pl es la salida; I es el número de bloques residuales; ReLU se supone que es un bloque habitual si está cerca de 1, pero si no es igual a 1, entonces puede calcularse como:
(1)
Aquí, b es la variable aleatoria y k es la función de mapeo.
(2)
Aquí sl se considera como la probabilidad de supervivencia del sistema propuesto;
(3)
La regla resultante para la probabilidad de supervivencia como;
(4)
Donde SL se supone que tiene probabilidad de supervivencia y L se supone que es el número total. de bloques.
El subtítulo de imágenes es una tarea desafiante que combina el procesamiento del lenguaje natural y la visión por ordenador para producir leyendas textuales descriptivas para las imágenes. Para ello, hay que comprender e interpretar el contenido visual de una imagen y traducirla en frases coherentes dentro de su contexto. En este campo, contar con conjuntos de datos extensos y diversos es crucial para la evaluación y el entrenamiento de modelos. Estos conjuntos de datos ofrecen una amplia variedad de imágenes y anotaciones relacionadas, que son cruciales para desarrollar y probar algoritmos de subtitulación de imágenes. Los conjuntos de datos más utilizados son MSCOCO y Flickr30k, que contienen millones de imágenes y plantean diversos retos en el procesamiento de imágenes. MSCOCO es mucho más grande que Flickr30k11. El conjunto de datos MS COCO se ha dividido en los siguientes conjuntos: 82.783 imágenes para entrenamiento, 40.504 para validación y 40.775 para pruebas.
La implementación se ha realizado con el modelo principal, que es ResNet-152, junto con un codificador como CNN, un decodificador como RNN y los recursos de la Tabla de Materiales.
ResNet-152
ResNet se considera la columna vertebral para extraer características de forma más eficiente en la creación de imágenes de texto. ResNet ofrecía un mejor rendimiento de entrenamiento que otros modelos, ya que abordaba el problema del gradiente nulo y lo resolvía de forma eficiente. En las imágenes pueden aparecer varios objetos, y el modelo necesita entender sus relaciones para obtener mejores subtítulos. Por eso puede considerarse una extracción jerárquica de características. ResNet-152 puede gestionar tareas complejas de visión por ordenador. La principal ventaja de este modelo es el uso efectivo de conexiones residuales o de salto. Es muy eficaz para abordar el problema del gradiente nulo. Puede aprender características complejas y robustas para lograr mayor precisión. ResNet-152 siguió un diseño de cuello de botella que redujo el coste computacional y lo hizo más eficaz que otras arquitecturas, como VGG-16. Cuenta con una columna vertebral destacada de aprendizaje por transferencia, adecuada para modelos preentrenados y tareas variadas como la detección de objetos y la segmentación de datos. La conexión de salto aceleró el entrenamiento y lo hizo más estable. En comparación con el modelo basado en transformadores, que utiliza un mecanismo de autoatención para entender datos secuenciales, ResNet es bastante diferente. Un modelo basado en transformadores requiere una gran cantidad de datos para un conocimiento profundo de los datos textuales, lo que produce resultados efectivos pero funciona un poco más lento. La motivación para elegir ResNet son sus conexiones de salto, que aceleran la ejecución con una mejora significativa en los resultados. En el ámbito de la leyenda de imágenes, ResNet se utiliza para extraer las características que representan el objeto y la acción realizada en la imagen. ResNet utilizaba una red residual que aprovechaba las conexiones de salto. Aquí, el bloque residual puede calcularse con referencia a la entrada Z como:
(5)
Donde Z se considera la entrada del bloque residual.
es una función residual que implica la normalización por lotes, capas convolucionales y activación de ReLu. {x i} se considera el peso de aprendizaje de las capas correspondientes. Z también define la identidad de la conexión de salto, que también resuelve el problema del gradiente nulo. ResNet se utiliza generalmente como extractor de características para el mapeo visual de características a partir de las imágenes. Aquí, I se considera la imagen de entrada para representar los mapas de características en una alta representación visual de características, V.
(6)
Antes de extraer características, la imagen debe ser preprocesada para mejorar la extracción de características. Se considera una imagen en bruto recogida del benchmark MSCOCO, por lo que el primer paso en el preprocesamiento es redimensionarla y normalizarla.
(7)
(8)
Donde Hl es la altura de la imagen y Wl es el peso de la imagen. Redimensiono la imagen redimensionada.
Para normalizar el valor del píxel desde el rango [-1, 1] o [0, 1]
(9)
Donde μ es el valor medio del píxel σ se considera la desviación estándar de la imagen referenciada. La imagen normalizada ahora se procesa más para la extracción de características.
(10)
Donde
se considera el vector de características. Cuando el subtítulo de fila se tokeniza, se convierte al formato numérico.
(11)
Si el pie de foto se divide en palabras entonces
(12)
Aquí, el vocabulario juega un papel importante, ya que cada palabra se identifica de forma única mediante la indexación basada en enteros.
(13)
Donde Vc se considera una función de vocabulario; hay que asegurarse de que todas las secuencias tengan una longitud pareja; por lo tanto, la altura máxima o longitud ideal se considera como Lmáx.
(14)
Ahora el token se incrusta como;
(15)
para j = 1,2,3, ... .., Lmáximo
Donde
se considera como un vector incrustado con K dimensiones; ahora el decodificador se debe usar para decodificar el subtítulo para la generación de subtítulos candidatos, que se basa en un modelo probabilístico.
(16)
Donde wj es una obra en la marca de tiempo j, w1: j-1 es la palabra generada en la marca de tiempo j-1 y ej-1 es la característica incrustada con la palabra anterior wj-1. En cada marca de tiempo, la red predecía la siguiente palabra o la probabilidad que se calculaba sobre el vocabulario.
(17)
Donde lasalida w es el peso de salida y lasalida b es el sesgo de salida. Así que la probabilidad máxima se calcula como
(18)
La longitud máxima del pie de foto candidato se calcula una vez que se recibe o identifica la palabra como un token especial como y . La búsqueda por haz también es útil para seleccionar la mejor leyenda candidata, por lo que la secuencia es:
(19)
(20)
Así, el candidato generado es la secuencia de 
La memoria a corto plazo se utiliza generalmente en la generación de secuencias. LSTM utiliza una CNN como extractor de características y genera palabras secuencialmente para crear oraciones significativas. LSTM calcula la puerta de olvido en cada marca temporal T.

Donde ft se considera como la puerta de olvido, σ se considera como función de activación, wf se considera peso y b f como sesgo,
Yt se considera como vector de características de entrada, HT-1 se considera estado oculto.
(22)
(23)
Jt se considera como entrada,
se considera estado candidato, wj yw c se consideran como peso para entrada y estado candidato respectivamente, bj yb c o considerado como sesgo.
(24)
Ct se considera como estado total, Ct-1 se considera estado anterior.
(25)
Ot se considera como salida, wo como peso y bo como sesgo. Para inicializar los estados oculto y celda, se requieren los siguientes cálculos.
(26)
(27)
Donde hi y Ci se consideran como estado oculto y celda, respectivamente, wh y wc son pesos para el estado oculto y celda vela respectivamente, bc y bh se consideran como sesgo, k se considera como extractor de características. La secuencia del pie de foto se calcula como:
(28)
Donde T es la longitud del pie de foto generado.
254 × 254 × 3 es la imagen redimensionada o preprocesada, y I se considera la imagen de entrada.
(29)
Donde W y b se consideran como peso y sesgo, respectivamente, I se considera como características de entrada, y ReLU es la función de activación. Es el cálculo de la capa convolucional. Ahora la capa de agrupación puede calcularse como:
(30)
Tras finalizar la capa de pooling; La capa totalmente conectada puede asignarse como:
(31)
Donde wf y bf se consideran como peso y sesgo de la red respectivamente.
(32)
(33)
Donde N se considera como la región espacial y d como la dimensión de la característica.
(34)
(35)
Donde wh y bh se consideran como peso y sesgo del estado oculto, respectivamente, wc y bc como peso y sesgo del estado celular, respectivamente. Los subtítulos pueden generarse como:
(36)
Codificador y decodificador
El sistema propuesto codifica los datos para la traducción automática mediante una CNN. En este caso, la entrada y la salida son ambas secuencias, aunque pueden diferir en longitud. Uno a uno, la máquina codifica y decodifica cada vector. Usando un vector como punto de partida, la máquina comienza a codificar y decodificar, y continúa calculando hasta la distribución de probabilidad condicional final. Un ejemplo es el siguiente:
(37)
Esto se considera la distribución de probabilidad.
El sistema puede codificar los datos en forma de imagen vectorial, y posteriormente puede ser decodificado. fcn (I) se considera el modelo de imagen para la comprensión de imágenes.
(38)
(39)
(40)
S1 es la iteración posterior de S0, y S2 es la iteración posterior de S1. Se podría decir que cada entrada depende de la salida de la capa anterior. Las imágenes se convierten en vectores por CNN y se envían a la siguiente capa, que recorre todos los vectores. Aquí, se utiliza un mecanismo de atención para organizar secuencialmente las palabras en una oración significativa después de que la RNN decodifica los vectores en palabras.
(41)
Donde T es la longitud de la entrada.
(42)
(43)
k1, k2, k3, k4, ......, kt-1 son estados de decodificación ocultos.

Figura 2: Modelo de codificación y decodificación. Esta figura presenta el marco codificador–decodificador utilizado para la creación de imágenes de imágenes, mostrando cómo las características de la imagen se codifican en representaciones vectoriales y posteriormente se decodifican en descripciones textuales secuenciales. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
Modelo de proceso
Véase la Figura 3, que muestra el diagrama de flujo del módulo de entrenamiento, donde se cargaron primero el conjunto de datos y sus leyendas de verdad. Una vez normalizados los datos para la codificación CNN, el modelo ResNet se inicializa y entrena utilizando las características extraídas. RNN y las palabras específicas del sistema etiquetadas con marcadores de inicio y fin pueden usarse para decodificar el pie de foto. El sistema completa la extracción si se encuentra la última palabra, y N es el número total de palabras en el pie de foto candidato.

Figura 3: Diagrama de flujo del modelo de entrenamiento. Esta figura describe el proceso paso a paso implicado en el entrenamiento del modelo, incluyendo el preprocesamiento de datos, la extracción de características, el aprendizaje del modelo y la optimización. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
El diagrama de flujo del modelo de pruebas se muestra en la Figura 4, donde el sistema primero carga los modelos codificador y decodificador, luego carga el modelo ResNet y los datos de entrada para la extracción de subtítulos. Si no ha habido errores de decodificación, se puede inferir desde la primera hasta la última palabra. Una vez alcanzada la palabra final, se pueden obtener palabras descodificadas y crear un pie de foto empleando un mecanismo de atención para ordenar secuencialmente las palabras de forma significativa. El tamaño de la viga del modelo de entrenamiento es de cinco con una longitud máxima de 20, y su tamaño de lote es de 128 con 20 épocas.

Figura 4: Diagrama de flujo del modelo de pruebas. Esta figura muestra el flujo de trabajo de pruebas, demostrando cómo se procesan las imágenes de entrada a través del modelo entrenado para generar pies de foto y evaluar el rendimiento. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
Algoritmo de subtítulos de imágenes ResNet-152
Inicializa los parámetros de entrada y salida, y aquí la entrada se toma como el conjunto de imágenes MSCOCO como I = (i1, i2, i 3, ....... iN) junto con la anotación J = (j1, j2, j3, ......... jN) y la salida se calcula como subtítulos. En el primer paso se requiere la entrada, luego preprocesar las imágenes redimensionando la relación de aspecto como
(44)
Donde w y h son el ancho y altura originales de la imagen, wnuevo y hnuevo son las dimensiones redimensionadas, Ts se considera un tamaño objetivo predefinido (Ts = 224), max(w, h) define la dimensión más grande, que se ha escalado para mantener la relación de aspecto.
Tras la extracción de características, es necesario declarar el bloque identidad como
(45)
Luego inicializa los parámetros como el tamaño del lote, el número de épocas, Woculto como peso para capas ocultas, Wsalida como capa de salida, y Baltura , Bsesgo como sesgo. Una vez realizada la inicialización, se requiere calcular la salida de la capa convolucional.
(46)
Puede considerarse un bloque ReLU normal si bl es equivalente a 1. Pero si bl no es igual a 1 ni equivalente a 0, entonces sería;
(47)
Luego calcula la viabilidad de supervivencia mediante
(48)
Donde FK se considera la viabilidad de supervivencia del sistema, y K se toma como la representación del número total de bloques en el modelo. Luego calcula la distribución de probabilidad
(49)
Una vez calculada la distribución de probabilidad, construye el modelo para acceder a ella y decodificar los datos utilizando.
/9500
k1, k2, k3, k4, ......, kt-1 son estados de decodificación ocultos.
Al acceder al modelo, se requiere aplicar mecanismos de atención para la generación de subtítulos que evalúen el candidato frente al subtítulo de referencia; las métricas finales pueden evaluarse usando BLEU, METEOR, CIDEr y ROUGE.
Especificaciones de software y entorno
Python 3.10 fue el principal lenguaje de programación utilizado para los experimentos. Visual Studio Code se utilizó para configurar el entorno de desarrollo (VS Code). Las bibliotecas importantes utilizadas en esta investigación incluyen Pickle para serialización de datos, multiprocesamiento para procesamiento paralelo, glob para manejo de archivos y PyTorch para el desarrollo de modelos de aprendizaje profundo. La configuración de hardware incluía 256 GB de almacenamiento, 8 GB de RAM y una GPU NVIDIA GTX con soporte CUDA para un cálculo más rápido. Para los experimentos se utilizó un ordenador que ejecutaba un procesador AMD Ryzen serie 5000 o un procesador Intel Core i5. Windows 10/11 fue el sistema operativo utilizado para la implementación. Se puede entender fácilmente en la tabla de especificaciones ambientales de la Tabla 1.
| Material | Especificaciones |
| GPU | Serie NVIDIA GTX |
| Bibliotecas | PyTorch, Pickle, Multiprogramación, Glob |
| OS | Windows 10/11 |
| Procesador | Intel Core i5/AMD Ryzen serie 5000 |
| Programación | Python 3.10 |
| RAM | 8 GB |
| Software | Código Visual Studio |
| Almacenamiento | 256 GB |
Tabla 1: Especificaciones del entorno. Esta tabla resume los materiales utilizados en la implementación y sus especificaciones, como lenguajes de programación, bibliotecas y especificaciones de hardware.
Análisis cualitativo
Según el análisis cualitativo del modelo según las diferentes categorías, como escenas exteriores e interiores y escenas simples y complejas, el modelo es algo eficiente para describir la imagen. B1, B2, B3 y B4 se consideran puntuaciones BLEU. C se considera CIDEr, M es METEOR y R se considera ROUGE. Para cada matriz donde B1 es 0,579, B2 0,404, B3 0,279, B4 0,191, METEOR 0,195, ROUGE 0,396 y CIDEr 0,6, el resultado se representa con 1, como se ilustra en la Tabla 2.
| Matrices | Puntuaciones de MSCOCO |
| BLEU1 | 0.579 |
| BLEU2 | 0.404 |
| BLEU3 | 0.279 |
| BLEU4 | 0.191 |
| METEOR | 0.195 |
| ROUGE | 0.396 |
| CIDEr | 0.6 |
Tabla 2: Resultados experimentales. Esta tabla resume el rendimiento del modelo propuesto utilizando métricas de evaluación como BLEU, METEOR, ROUGE y CIDEr, proporcionando una evaluación cuantitativa de la calidad de los subtítulos.

Figura 5: Resultado experimental. Esta figura presenta una representación gráfica de las métricas de evaluación, ilustrando el rendimiento comparativo del modelo en diferentes medidas. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
La comparación de resultados se ilustra en las Tablas 3, 4 y 5. Las siguientes referencias se enumeran en las Tablas 3, 3 y 4:10,11,12,13,14
| Método | B1 | B2 | B3 | B4 |
| Face-CapF [10] | 0.5713 | 0.3651 | 0.2407 | 0.1652 |
| Face-Init [10] | 0.5663 | 0.3649 | 0.243 | 0.1686 |
| Face-CapL [11] | 0.589 | 0.3789 | 0.2507 | 0.1719 |
| Paso de cara [10] | 0.5843 | 0.3756 | 0.2478 | 0.1696 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.6012 | 0.3992 | 0.2703 | 0.1921 |
| CNN+RNN+ResNet-152 (Propuesto) | 0.579 | 0.404 | 0.279 | 0.191 |
Tabla 3: Comparación de resultados para las puntuaciones de BLEU. Esta tabla compara los resultados de puntuaciones BLEU entre diferentes modelos o configuraciones para destacar mejoras en la precisión de generación de subtítulos.
Como se muestra en las Tablas 3 y 4, CSPDN-BiLSTM-SelfAtt12 rinde mejor en B1 y B4, mientras que CNN+RNN+ResNet-152 rinde mejor en B2 y B3. CNN+RNN+ResNet-152 es mejor que METER y CIDEr, en lugar de ROUGE. Así que ambos métodos son iguales en puntuaciones BLEU, pero el propuesto es mejor que los otros dos indicadores. Así que la superioridad global en el resultado se logra mediante el método propuesto. Face-CapF10, Face-Init10, Face-CapL11 yFace-Step 10 están realizando subtítulos de imagen basados en el conjunto de datos FlickrFace11K. Pero los resultados son comparativamente pobres incluso para un conjunto de datos grande. Aunque el modelo propuesto tiene una puntuación CIDEr significativamente más alta, esta discrepancia se debe a diferencias en el procedimiento de evaluación, la preparación del conjunto de datos y las especificidades de la implementación.
| Método | METEOR | CIDEr | ROUGE |
| Face-CapF [10] | 0.1719 | 0.2304 | 0.4476 |
| Face-Init [10] | 0.1717 | 0.2313 | 0.4484 |
| Face-CapL [11] | 0.1744 | 0.2472 | 0.4547 |
| Paso de cara [10] | 0.1745 | 0.2283 | 0.4504 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.1932 | 0.2617 | 0.4793 |
| CNN+RNN+ResNet-152 (Propuesto) | 0.195 | 0.6 | 0.396 |
Tabla 4: Comparación de resultados respecto a METEOR, CIDEr y ROUGE. Esta tabla ofrece un análisis comparativo de múltiples métricas de evaluación para valorar la calidad semántica y sintáctica de los subtítulos generados.
| Método | B1 | B2 | B3 | B4 | METEOR | ROUGE |
| Aumento de plantilla [13] | 0.238 | 0.109 | 0.05 | 0.022 | 0.096 | 0.249 |
| EfficientNetB0 [14] | 0.2827 | 0.1325 | 0.0588 | 0.0266 | 0.2661 | 0.3609 |
| EfficientNetB1 [14] | 0.289 | 0.1404 | 0.0642 | 0.0286 | 0.271 | 0.3718 |
| ResNet50 [14] | 0.2637 | 0.1217 | 0.0496 | 0.0207 | 0.2437 | 0.3423 |
| MobileNetV2 [14] | 0.2106 | 0.064 | 0.0215 | 0.009 | 0.1794 | 0.2606 |
| CNN+RNN+ResNet-152 (Propuesto) | 0.579 | 0.404 | 0.279 | 0.191 | 0.195 | 0.396 |
Tabla 5: Comparación de resultados para las puntuaciones de BLEU, METEOR y ROUGE. Esta tabla presenta una comparación consolidada de métricas clave de evaluación para demostrar la efectividad global del modelo.
Según la Tabla 5, EfficientNetB114 es mejor para METEOR, pero CNN+RNN+ResNet-152 es mejor para B1-B 4 y ROUGE. En general, el resultado propuesto es superior en todas las métricas BLEU y ROUGE en comparación con los métodos mencionados.
DISPONIBILIDAD DE DATOS:
Todos los datos en bruto y archivos de codificación asociados a este estudio están disponibles en los archivos suplementarios.
En el ámbito de la inteligencia artificial, subtitular imágenes es una tarea difícil. El subtitulado de imágenes ha sido objeto de numerosos estudios, y el subtitulado agudo o preciso sigue requiriendo el más alto nivel de precisión. Muchas técnicas de aprendizaje automático pueden utilizarse para lograr el objetivo del subtítulo de imágenes, y numerosos estudios han utilizado CNN, RNN y ResNet-152. Sin embargo, es necesario aumentar la precisión y reducir el tiempo de procesado. El sistema propuesto se construye utilizando CNN como codificador, RNN como decodificador, Torch Vision como biblioteca y ResNet como modelo principal de entrenamiento. ResNet utiliza la técnica de conexión skip para aprovechar las capas y lograr un mejor rendimiento en comparación con otros modelos convencionales como Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2 y muchos más10, 11, 12, 13, 14.
Los pasos críticos implicados en el trabajo propuesto son el uso de un filtro inteligente para borrar las imágenes y luego la extracción de características con todos los pasos principales. Sin una extracción precisa de características, no es posible alcanzar el objetivo del modelo, y si el sistema no extrae correctamente las características, la precisión de las puntuaciones métricas se ve afectada. La fase de entrenamiento, ejecutada con un análisis profundo de los vectores de características y el mecanismo de atención, desempeñó un papel vital en la decodificación de los datos de prueba. También hay un paso fundamental más en el trabajo, que es actualizar la voz. Cuando surgen nuevas palabras durante la prueba de los datos, esas palabras se añaden al diccionario para mejorar el rendimiento del modelo. Estos pasos críticos desempeñaron un papel vital para lograr una mayor precisión, que fue mayor que la del modelo sugerido anteriormente, como el Método de Aumento de Plantillas. El sistema entrenó un modelo para el benchmark MSCOCO y obtuvo un modelo más eficaz para subtitular imágenes.
Si el tamaño de los datos de prueba aumenta, entonces puede ser posible que nuevas palabras estén relacionadas con las imágenes. También puede causar irrelevancia al generar subtítulos, y luego puede gestionarse mediante el mecanismo de atención, que se ha utilizado en el modelo. El vocabulario puede actualizarse mediante un mecanismo de atención que puede ser eficaz para una evaluación posterior. Puede considerarse autoaprendizaje o manejo de excepciones. Como el modelo se entrena con MSCOCO, que contiene miles de imágenes del mundo real, pueden surgir muchos objetos que necesitan actualizarse en cada inferencia.
Una desventaja de este trabajo es que, en comparación con los conjuntos de datos contemporáneos usados para entrenamiento, el modelo puede rendir mal en imágenes mucho más antiguas, especialmente en blanco y negro o imágenes históricas de baja calidad, debido a diferencias en características visuales, contraste y textura. Si las imágenes tienen mala resolución, es más difícil extraer las características precisas, y ResNet-152 puede degradar la fase de codificación en este caso. Además, rinde mal en demasiadas imágenes antiguas, lo que significa que esas imágenes son de tiempos antiguos debido a vectores de rasgos deficientes o dañados. Las limitaciones incluyen la evaluación de un solo conjunto de datos y la falta de validación cruzada.
En comparación con los enfoques convencionales, el modelo propuesto es mejor porque mejora la extracción de características, mejorando así la generación de subtítulos de imagen. El filtrado inteligente mejora la fase de extracción o codificación de características, lo que construye mejor el modelo. ResNet-152 también utiliza conexiones de salto que aprovechan el tiempo durante el entrenamiento. Así que la ejecución es mucho más rápida que en otros modelos comoEfficientNetB0 14. El mecanismo de atención también es un factor principal que mejora el rendimiento del modelo.
La técnica puede utilizarse en sistemas de recuperación de imágenes, vigilancia automatizada y tecnologías de asistencia para personas con discapacidad visual. A medida que la inteligencia artificial avanza rápidamente, es necesario mejorar el sistema de recuperación de imágenes, y esta técnica puede contribuir a ello. Con este modelo, las personas con discapacidad visual pueden recibir ayuda para ver el mundo traduciéndolo al habla. Existen varias aplicaciones importantes y potenciales de la leyenda de imágenes.
Los autores declaran que no tienen intereses financieros en competencia ni relaciones personales que pudieran haber influido en el trabajo reportado en este artículo.
Agradecemos a los creadores de los conjuntos de datos de MSCOCO por proporcionar los puntos de referencia utilizados en este estudio. Los autores afirman que no se recibió financiación externa para este estudio.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| AMD Ryzen serie 5000 | AMD | 100-100000059WOF | La serie AMD Ryzen 5000 es una línea de procesadores de alto rendimiento desarrollada por AMD, basada en la arquitectura Zen 3. Estos procesadores se utilizan ampliamente en ordenadores de sobremesa y portátiles tanto para computación de propósito general como para tareas exigentes como el procesamiento de datos y los flujos de trabajo de aprendizaje automático. |
| GPU | NVIDIA | 4.71933E+12 | La NVIDIA GeForce GTX es una serie de unidades de procesamiento gráfico (GPUs) desarrolladas por NVIDIA, ampliamente utilizadas tanto para juegos como para tareas de computación de propósito general como el aprendizaje profundo y el procesamiento de imágenes. |
| Intel Core i5 | Intel | BX8071514400F | Intel Core i5 es una serie de procesadores de gama media desarrollada por Intel, ampliamente utilizada en ordenadores personales tanto para tareas de propósito general como computacionales. |
| Python 3.10 | Fundación de Software Python | PEP 619 | Python es un lenguaje de programación interpretado de alto nivel ampliamente utilizado en computación científica, análisis de datos y aprendizaje automático. Es conocida por su simplicidad, legibilidad y un amplio ecosistema de bibliotecas. |
| PyTorch | 26.03-py3 | PyTorch es un framework de aprendizaje profundo de código abierto desarrollado por Meta Platforms (anteriormente Facebook), ampliamente utilizado para construir y entrenar redes neuronales en investigación e industria. | |
| Código Visual Studio | Microsoft | Ninguno | Visual Studio Code (VS Code) es un editor de código ligero y de código abierto desarrollado por Microsoft. Se utiliza ampliamente en desarrollo de software, incluyendo proyectos de aprendizaje automático y aprendizaje profundo. |
| Windows 11 | Microsoft | KB5083631 | Windows 11 es un sistema operativo desarrollado por Microsoft, ampliamente utilizado tanto para computación general como para tareas de desarrollo de software y aprendizaje automático. |
Request permission to reuse the text or figures of this JoVE article
Request Permission