Questo protocollo utilizza CNN, RNN e ResNet per la didascalia delle immagini, estraendo descrizioni delle attività, persone, oggetti e altri elementi delle immagini. È stato giustificato con punteggi BLEU, CIDEr, METEOR e ROUGE.
Research Article
June 12th, 2026
Questo protocollo utilizza CNN, RNN e ResNet per la didascalia delle immagini, estraendo descrizioni delle attività, persone, oggetti e altri elementi delle immagini. È stato giustificato con punteggi BLEU, CIDEr, METEOR e ROUGE.
La generazione di didascalie didascalie è un tentativo di fornire una descrizione testuale significativa che coinvolga un'immagine. Le informazioni estratte sono rilevanti per le attività presenti nelle immagini. ResNet (Residual Network) è ben noto per la sua capacità di classificare le immagini, avendo sviluppato rappresentazioni gerarchiche profonde. L'intento di questo articolo è utilizzare ResNet con vari filtri intelligenti per classificare le immagini in modo più profondo, permettendo la generazione di descrizioni autentiche e significative, altamente precise rispetto alle didascalie di riferimento. Qui, il lavoro utilizza una tecnica di filtraggio intelligente per migliorare le immagini, una CNN per codificare le caratteristiche, l'addestramento dei modelli e successivamente una RNN (Recurrent Neural Network) per decodificare le caratteristiche. ResNet è un modello molto efficace per compiti di visione artificiale, in particolare per la classificazione degli oggetti e l'analisi semantica. ResNet è ben noto per le connessioni residue, note anche come connessioni saltanti che risolvono il problema del gradiente nullo, un problema cruciale nel deep learning. Qui, il benchmark MSCOCO (Microsoft Common Object in Context) viene utilizzato per addestrare il modello, che è un ampio dataset con annotazioni di riferimento utili per vari compiti di visione artificiale. ResNet aiuta a migliorare la capacità di generalizzazione, particolarmente utile per immagini diverse. Secondo i risultati ottenuti, i punteggi BLUE sono B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEORE: 0,195; ROUGE: 0,396; e CIDEr: 0,6.
Nei campi della visione artificiale e dell'elaborazione del linguaggio naturale, la didascalia delle immagini è un compito cruciale che estrae una descrizione dell'immagine e delle azioni che essa rappresenta. L'intenzione del modello è comprendere le immagini e tradurre le informazioni in frasi o didascalie significative1. L'intera procedura consiste in due fasi significative: la prima è l'estrazione delle caratteristiche, in cui viene utilizzato un modello CNN; la seconda è la descrizione dell'immagine tramite RNN e, nel mezzo, ResNet viene utilizzato per l'analisi semantica, la generazione di sequenze e un meccanismo di attenzione. ResNet è molto diverso dai metodi basati su template o dai moduli basati su DenseNet perché utilizza connessioni skip che riducono i tempi di esecuzione migliorando al contempo le prestazioni. Esistono numerose applicazioni della didascalia di immagini che includono aiutare persone con disabilità visive, potenziare le piattaforme di social media, ottimizzare i motori di ricerca basati su immagini, l'intelligenza artificiale basata su immagini e molte altre2.
Nella visione artificiale, il riconoscimento delle scene è il processo di identificazione e classificazione del contesto generale o dell'ambiente dell'immagine, come una spiaggia, un paesaggio urbano, una foresta o un ufficio. A differenza del riconoscimento degli oggetti, che si concentra su singoli oggetti, il riconoscimento delle scene considera texture, disposizioni spaziali e relazioni tra oggetti per comprendere il contesto più ampio. Utilizza CNN e Vision Transformers, modelli di deep learning addestrati su grandi dataset come Places365 e ImageNet. Le applicazioni includono la sorveglianza di sicurezza, la realtà aumentata e virtuale (AR e VR) per esperienze immersive, la robotica per la sensibilizzazione ambientale e i veicoli autonomi per la navigazione. Nonostante i progressi, problemi come i punti di vista variabili, le occlusioni e l'illuminazione variabile rendono il riconoscimento delle scene un argomento caldo nella ricerca sulla visione artificiale e sull'intelligenza artificiale. Un altro problema fondamentale nella visione artificiale è il riconoscimento delle scene.
EnsCaption, un modello di rete generativa e antagionale doppia, è stato proposto per migliorare una tecnica di ensemblegenerazione-recupero 3. Questo layout consente metodi armoniosi di sottotitolazione delle immagini basati sulla procreazione che generano didascalie allineate agli obiettivi esistenti. Mentre la tecnica basata sul recupero utilizza un modello basato su posizione o gradazione per selezionare il modello migliore per estrarre informazioni con maggiore precisione rispetto agli altri nella query basata su immagini. È stata introdotta una mappatura delle immagini a uno "spazio del significato" utilizzando componenti visivi come oggetti, attività e scene, che sono poi stati allineati con i corrispondenti modelliverbali 4. Utilizzando le correlazioni e le qualità trovate nelle immagini, l'approccio costruisce frasi. Le frasi esprimono informazioni in modo ricco, condensato e sottile. La generazione di sottotitoli basata su template è stata migliorata incorporando conoscenze di buon senso per migliorare la comprensionesemantica 5. Questa tecnica ha esteso la portata del modello oltre le caratteristiche dirette dell'immagine, includendo associazioni inferite. Questo lavoro utilizza un dataset esistente di rilevamento di oggetti per estrarre 16.000 affermazioni di buon senso per ogni categoria annotata. Inoltre, la generalizzazione è stata raggiunta utilizzando WordNet, permettendo l'induzione di un gran numero di fatti su oggetti primainosservati 6. Offre una panoramica di una tassonomia organizzata delle tecniche di deep learning per la sottotitolazione delle immagini, inclusi argomenti come meccanismi di attenzione, tattiche di reinforcement learning e framework encoder-decoder. Oltre ad affrontare questioni come le allucinazioni degli oggetti e la comprensione contestuale, esamina anche dataset e criteri di valutazione comunemente utilizzati. Gli autori indicano aree da approfondire, come il miglioramento delle tecniche di pre-addestramento viso-linguaggio e la riduzione del bias del dataset. Un approccio di analisi semantica basato su reti neurali convoluzionali e reti neurali ricorrenti è stato esplorato per i compiti di didascalia delle immagini7. La didascalia delle immagini è uno degli usi più noti, permettendo ai computer di produrre frasi evocative che racchiudono un'immagine. Per fornire descrizioni semantiche significative e di alto livello, questa procedura comporta più che identificare oggetti e scene; Comporta anche l'esame dei loro stati, caratteristiche e interazioni. Nonostante la complessità e la difficoltà intrinseca della didascalia delle immagini, gli accademici hanno compiuto notevoli progressi in questo ambito. Le tre principali tecniche di sottotitolazione di immagini basate su reti neurali profonde trattate in questo studio sono basate su CNN-RNN, CNN-CNN e framework di apprendimento per rafforzamento. È stato introdotto un modello addestrabile end-to-end per la didascalia delle immagini, che integra visione artificiale ed elaborazione del linguaggio naturale per generare descrizioni coerenti delleimmagini 8. Per creare una didascalia, utilizza un framework codificatore-decodificatore in cui un LSTM decodifica un'immagine in una stringa di parole dopo che una CNN pre-addestrata l'ha codificata in un vettore di caratteristiche. Nonostante i suoi svantaggi, tra cui le difficoltà con scenari complessi, il contributo del giornale ai progetti di linguaggio visivo è comunque fondamentale.
ResNet è la rete neurale convoluzionale (CNN) utilizzata nel modello di didascalia delle immagini dell'opera proposta per estrarre ricche informazioni visive dalle immagini di input. ResNet funge da codificatore per produrre un vettore di caratteristiche che rappresenta l'immagine, che viene solitamente utilizzato in un'architettura encoder-decoder. Il decodificatore, che genera didascalie descrittive parola per parola, riceve queste caratteristiche ed è spesso implementato utilizzando una rete neurale ricorrente (RNN), come LSTM o GRU. È possibile aggiungere un meccanismo di attenzione per migliorare le prestazioni permettendo al decodificatore di concentrarsi su specifiche aree dell'immagine mentre genera ogni parola. Per massimizzare l'accuratezza delle didascalie, il modello viene addestrato end-to-end utilizzando una funzione di perdita come la cross-entropia e un dataset come COCO. Il transfer learning e il fine-tuning di ResNet possono migliorare l'estrazione delle caratteristiche, rafforzando ulteriormente il modello e permettendogli di produrre didascalie di alta qualità e contestualmente appropriate su un'ampia gamma di immagini. Nella didascalia delle immagini, ResNet è spesso preferito rispetto ad altri modelli perché affronta efficacemente il problema del gradiente nullo, un problema comune nelle reti neurali profonde. Ciò è reso possibile dai suoi innovativi approcci di apprendimento residuo, che addestrano reti molto più profonde senza sacrificare le prestazioni, utilizzando connessioni di salto per facilitare il flusso di gradiente durante la retropropagazione. Il perceptrone multistrato, una rete neurale feed-forward completamente connessa, è associato allo strato addestrabile. La RNN quindi decodifica le sottotitoli utilizzando il livello softmax, generando didascalie candidate. La funzione di attivazione è f(x), la funzione identità in avanti è f(x) + x, e x è considerata identità, come illustrato nella Figura 1. In questo caso, il sistema utilizza blocchi residui per calibrare il modello durante l'addestramento, e i suoi input passano sia attraverso connessioni di peso che connessioni di salto, note anche come scorciatoie di identità.

Figura 1: Rete di connessione residua. Questa figura illustra l'architettura di una rete residua, evidenziando le connessioni skip che migliorano il flusso di gradiente e mitigano le scadenze durante l'addestramento di rete profonda. Clicca qui per visualizzare una versione più grande di questa figura.
Supponiamo che Pl sia l'uscita; L è il numero di blocchi residui; ReLU dovrebbe essere un blocco consueto se è vicino a 1, ma se non è uguale a 1, allora può essere calcolato come:
(1)
Qui, b è la variabile casuale, e k è la funzione di mappatura.
(2)
Qui sl è considerato come la probabilità di sopravvivenza del sistema proposto;
(3)
La regola risultante per la probabilità di sopravvivenza come;
(4)
Dove SL dovrebbe probabilizzare sopravvivenza così come L è supposto al numero totale. di blocchi.
La didascalia delle immagini è un compito impegnativo che combina l'elaborazione del linguaggio naturale e la visione artificiale per produrre didascalie testuali descrittive per le immagini. Per farlo, bisogna comprendere e interpretare il contenuto visivo di un'immagine e tradurlo in frasi coerenti all'interno del suo contesto. In questo campo, avere dataset estesi e diversificati è fondamentale per la valutazione e l'addestramento dei modelli. Questi dataset offrono una vasta gamma di immagini e annotazioni correlate, fondamentali per sviluppare e testare algoritmi di didascalia delle immagini. I dataset più usati sono MSCOCO e Flickr30k, che contengono milioni di immagini e presentano varie sfide nell'elaborazione delle immagini. MSCOCO è molto più grande di Flickr30k11. Il dataset MS COCO è stato suddiviso nei seguenti set: 82.783 immagini per l'addestramento, 40.504 per la validazione e 40.775 per i test.
L'implementazione è stata effettuata con il modello principale, che è ResNet-152, insieme a un Encoder come CNN, un Decoder come RNN e le risorse della Table of Materials.
ResNet-152
ResNet è considerato la spina dorsale per estrarre le funzionalità in modo più efficiente nella sottotitolazione delle immagini. ResNet offriva prestazioni di addestramento migliori rispetto ad altri modelli, poiché affrontava il problema del gradiente nullo e lo risolveva in modo efficiente. Vari oggetti possono apparire nelle immagini e il modello deve comprenderne le relazioni per una didascalia migliore. Ecco perché può essere considerato un'estrazione gerarchica di caratteristiche. ResNet-152 può gestire compiti complessi di visione artificiale. Il vantaggio principale di questo modello è l'uso efficace delle connessioni residue o di salt. È altamente efficace nell'affrontare il problema del gradiente nullo. Può apprendere funzionalità complesse e robuste per ottenere una maggiore precisione. ResNet-152 seguiva un design a collo di bottiglia che riduceva i costi computazionali e lo rendeva più efficace rispetto ad altre architetture, come VGG-16. Dispone di una solida spina dorsale di apprendimento per trasferimenti adatta a modelli pre-addestrati e a compiti vari come il rilevamento di oggetti e la segmentazione dei dati. La connessione con il skip ha accelerato l'allenamento e lo ha reso più stabile. Rispetto al modello basato su trasformatori, che utilizza un meccanismo di autoattenzione per comprendere i dati sequenziali, ResNet è piuttosto diverso. Un modello basato su trasformatori richiede una grande quantità di dati per una comprensione profonda dei dati testuali, che producono risultati efficaci ma funzionano un po' più lentamente. La motivazione per scegliere ResNet sono le sue connessioni di salto, che velocizzano l'esecuzione con un miglioramento significativo dei risultati. Nel campo della didascalia delle immagini, ResNet viene utilizzato per estrarre le caratteristiche che rappresentano l'oggetto e l'azione eseguita nell'immagine. ResNet utilizzava una rete residua che sfruttava le connessioni di salto. Qui, il blocco residuo può essere calcolato con riferimento all'input Z come:
(5)
Dove Z è considerato l'ingresso del blocco residuo.
è una funzione residua che coinvolge la normalizzazione batch, gli strati convoluzionali e l'attivazione di ReLu. {xi} è considerato il peso di apprendimento dei relativi livelli. Z definisce anche l'identità della connessione di salto, che risolve anche il problema del gradiente nullo. ResNet è generalmente utilizzato come estrattore di caratteristiche per la mappatura visiva delle caratteristiche dalle immagini. Qui, I viene considerata come l'immagine di input per rappresentare le mappe di caratteristiche in una rappresentazione visiva ad alta V.
(6)
Prima di estrarre le caratteristiche, l'immagine deve essere pre-elaborata per migliorare l'estrazione delle caratteristiche. È considerata un'immagine grezze raccolta dal benchmark MSCOCO, quindi il primo passo nella pre-elaborazione è ridimensionarla e normalizzarla.
(7)
(8)
Dove Hl è l'altezza dell'immagine e Wl è il peso dell'immagine. Ridimensiono l'immagine ridimensionata.
Normalizzare il valore dei pixel dalla distanza [-1, 1] o [0, 1]
(9)
Dove μ è considerato come il valore medio del pixel σ è considerato come la deviazione standard dell'immagine di riferimento. L'immagine normalizzata viene ora ulteriormente elaborata per l'estrazione delle caratteristiche.
(10)
Dove
che è considerato come vettore caratteristico. Quando la didascalia della riga viene tokenizzata, viene convertita nel formato numerico.
(11)
Se la didascalia si divide in parole allora
(12)
Qui, il vocabolario gioca un ruolo importante, con ogni parola identificata in modo univoco tramite indicizzazione basata su interi.
(13)
Dove Vc è considerato come una funzione di vocabolario; Deve essere assicurato che tutte le sequenze abbiano una lunghezza pari; quindi l'altezza massima o lunghezza ideale è considerata come Lmax.
(14)
Ora i token vengono incorporati come;
(15)
per j = 1,2,3, ... .., Lmax
Dove
è considerato come un vettore embeddedeto con K dimensioni; ora il decodificatore deve essere usato per decodificare la didascalia per la generazione delle candidate caption, basate su un modello probabilistico.
(16)
Dove wj è un'opera con timestamp j, w1: j-1 è la parola generata a time stamp j-1 ed e j-1 è la caratteristica incorporata con la parola precedente wj-1. Ad ogni timestamp, la rete prevedeva la parola successiva o la probabilità veniva calcolata sul vocabolario.
(17)
Dove win uscita è il peso di uscita e bin uscita è il bias di uscita. Quindi la probabilità massima si calcola come
(18)
La lunghezza massima della didascalia candidata viene calcolata una volta che la parola viene ricevuta o identificata come un token speciale come e . La ricerca a fasci è utile anche per selezionare la didascalia candidata migliore, quindi la sequenza è:
(19)
(20)
Quindi la didascalia candidata generata è la sequenza di 
La memoria a lungo termine è generalmente utilizzata nella generazione di sequenze. LSTM utilizza una CNN come estrattore di caratteristiche e genera parole in sequenza per creare frasi significative. LSTM calcola la porta di dimenticare a ogni timestamp T.

Dove ft è considerato come dimentica la porta, σ è considerato come funzione di attivazione, wf è considerato come peso e bf come bias,
Yt è considerato come vettore di caratteristica in ingresso, HT-1 è considerato come stato nascosto.
(22)
(23)
Jt è considerato come input,
è considerato come stato candidato, wj ew c sono considerati rispettivamente come peso per input e stato candidato, bj eb c o come bias.
(24)
Ct è considerato come stato completo, Ct-1 è considerato stato precedente.
(25)
Ot è considerato come output, wo come peso e bo come bias. Per inizializzare gli stati nascosti e celle sono necessari i seguenti calcoli.
(26)
(27)
Dove hi e Ci sono considerati rispettivamente come stato nascosto e quello della cella, wh e wc sono pesi per lo stato nascosto e quello della cella a vela, bc e bh sono considerati come bias, k è considerato come estrattore di caratteristiche. La sequenza della didascalia viene calcolata come:
(28)
Dove T è la lunghezza della didascalia generata.
254 × 254 × 3 è l'immagine ridimensionata o pre-trattata, e I è considerata l'immagine di input.
(29)
Dove W e b sono considerati rispettivamente come peso e bias, I è considerato come caratteristiche di input, e ReLU è la funzione di attivazione. È il calcolo dello strato convoluzionale. Ora lo strato di pooling può essere calcolato come:
(30)
Dopo aver finalizzato lo strato di pooling; Il livello completamente connesso può essere mappato come:
(31)
Dove wf e bf sono considerati rispettivamente come peso e bias della rete.
(32)
(33)
Dove N è considerato come la regione spaziale e d come la dimensione della caratteristica.
(34)
(35)
Dove wh e bh sono considerati rispettivamente come peso e bias dello stato nascosto, wc e bc come peso e bias dello stato cellulare. La didascalia può essere generata come:
(36)
Codificatore e decodificatore
Il sistema proposto codifica i dati per la traduzione automatica utilizzando una CNN. In questo caso, l'ingresso e l'uscita sono entrambe sequenze, ma possono differire per lunghezza. Uno alla volta, la macchina codifica e decodifica ogni vettore. Utilizzando un vettore come punto di partenza, la macchina inizia a codificare e decodificare, e continua a calcolare fino alla distribuzione di probabilità condizionata finale. Un esempio è il seguente:
(37)
Questa è considerata la distribuzione di probabilità.
Il sistema può codificare i dati sotto forma di immagine vettoriale, e successivamente può essere decodificato. fcn (I) è considerato il modello d'immagine per la comprensione delle immagini.
(38)
(39)
(40)
S1 è l'iterazione successiva di S0, e S2 è l'iterazione successiva di S1. Si potrebbe dire che ogni input dipende dall'output del livello precedente. Le immagini vengono convertite in vettori da CNN e inviate al livello successivo, che attraversa tutti i vettori. Qui, viene utilizzato un meccanismo di attenzione per ordinare sequenzialmente le parole in una frase significativa dopo che la RNN ha decodificato i vettori in parole.
(41)
Dove T è la lunghezza dell'ingresso.
(42)
(43)
k1, k2, k3, k4, ......, kt-1 sono stati di decodifica nascosti.

Figura 2: Modello di codifica e decodifica. Questa figura presenta il framework codificatore–decodificatore utilizzato per la didascalia delle immagini, mostrando come le caratteristiche dell'immagine vengano codificate in rappresentazioni vettoriali e successivamente decodificate in descrizioni testuali sequenziali. Clicca qui per visualizzare una versione più grande di questa figura.
Modello di processo
Vedi la Figura 3, che mostra il diagramma di flusso dei moduli di addestramento, dove il dataset e le didascalie di base sono stati caricati per primi. Dopo che i dati sono stati normalizzati per la codifica CNN, il modello ResNet viene inizializzato e addestrato utilizzando le caratteristiche estratte. RNN e le parole specifiche del sistema etichettate con marcatori di inizio e fine possono quindi essere usate per decifrare la didascalia. Il sistema completa l'estrazione se si trova l'ultima parola, e N è il numero totale di parole nella didascalia candidata.

Figura 3: Diagramma di flusso del modello di addestramento. Questa figura delinea il processo passo dopo passo coinvolto nell'addestramento del modello, inclusi la preprocessing dei dati, l'estrazione delle caratteristiche, l'apprendimento del modello e l'ottimizzazione. Clicca qui per visualizzare una versione più grande di questa figura.
Il diagramma di flusso del modello di prova è mostrato nella Figura 4, dove il sistema carica prima i modelli di codificatore e decodificatore, poi carica il modello ResNet e i dati di input per l'estrazione delle didascalie. Se non ci sono stati errori di decodifica, si può inferire dalla prima alla ultima parola. Dopo aver raggiunto l'ultima parola, si possono ottenere parole decodificate e si può creare una didascalia impiegando un meccanismo di attenzione per ordinare sequenzialmente le parole in modo significativo. La dimensione del fascio del modello di addestramento è di cinque con una lunghezza massima di 20, mentre il suo lotto è di 128 con 20 epoche.

Figura 4: Diagramma di flusso del modello di test. Questa figura rappresenta il flusso di lavoro dei test, mostrando come le immagini di input vengono elaborate attraverso il modello addestrato per generare didascalie e valutare le prestazioni. Clicca qui per visualizzare una versione più grande di questa figura.
Algoritmo di didascalia delle immagini ResNet-152
Si inizializzano i parametri di input e output, e qui l'input viene preso come insieme delle immagini MSCOCO poiché I = (i1, i2, i 3, ....... iN) insieme all'annotazione J = (j1, j2, j3, ......... jN) e l'output viene calcolato come didascalie. Nel primissimo passaggio è necessario un input, poi pre-elaborare le immagini ridimensionando il rapporto d'aspetto come
(44)
Dove w e h sono la larghezza e l'altezza originali dell'immagine, wnuovo e hnuovo sono le dimensioni ridimensionate, Ts è considerato una dimensione target predefinita (Ts = 224), max(w, h) definisce la dimensione più grande, che è stata scalata per mantenere il rapporto d'aspetto.
Dopo l'estrazione delle caratteristiche, è necessario dichiarare il blocco identità come
(45)
Poi inizializza i parametri come la dimensione del lotto, il numero di epoche, Wnascosto come peso per i livelli nascosti, Wcome per il livello di output, e Baltezza , Bbias come bias. Una volta effettuata l'inizializzazione, è necessario calcolare l'output dello strato convoluzionale.
(46)
Può essere considerato un blocco ReLU normale se bl è equivalente a 1. Ma se bl non è uguale a 1 né equivalente a 0, allora sarebbe;
(47)
Poi calcola la fattibilità della sopravvivenza tramite
(48)
Dove FK è considerato come la fattibilità di sopravvivenza del sistema, e K si prende come rappresentante il numero totale di blocchi nel modello. Poi calcola la distribuzione di probabilità
(49)
Una volta calcolata la distribuzione di probabilità, costruisce il modello per accedervi e decodificare i dati utilizzando.
/9500
k1, k2, k3, k4, ......, kt-1 sono stati di decodifica nascosti.
Quando si accede al modello, è necessario applicare meccanismi di attenzione per la generazione delle didascalie che valutino la didascalia candidata rispetto a quella di riferimento; le metriche finali possono poi essere valutate utilizzando BLEU, METEOR, CIDEr e ROUGE.
Specifiche software e ambienti
Python 3.10 era il linguaggio di programmazione principale utilizzato per gli esperimenti. Visual Studio Code veniva utilizzato per configurare l'ambiente di sviluppo (VS Code). Le librerie importanti utilizzate in questa ricerca includono Pickle per la serializzazione dei dati, multiprocessing per l'elaborazione parallela, glob per la gestione dei file e PyTorch per lo sviluppo di modelli di deep learning. La configurazione hardware includeva 256 GB di memoria, 8 GB di RAM e una GPU NVIDIA GTX con supporto CUDA per un calcolo più veloce. Per gli esperimenti veniva utilizzato un computer con processore AMD Ryzen serie 5000 o processore Intel Core i5. Windows 10/11 fu il sistema operativo utilizzato per l'implementazione. Può essere facilmente compreso dalla tabella delle specifiche ambientali nella Tabella 1.
| Materiale | Specifiche |
| GPU | Serie NVIDIA GTX |
| Biblioteche | PyTorch, Pickle, Multiprogramming, Glob |
| OS | Windows 10/11 |
| Processore | Intel Core i5/AMD serie Ryzen 5000 |
| Programmazione | Python 3.10 |
| RAM | 8 GB |
| Software | Codice Visual Studio |
| Stoccaggio | 256 GB |
Tabella 1: Specifiche ambientali. Questa tabella riassume i materiali utilizzati nell'implementazione e le loro specifiche, come linguaggi di programmazione, librerie e specifiche hardware.
Analisi qualitativa
Secondo l'analisi qualitativa del modello secondo le diverse categorie, come scene esterne e interne e scene semplici e complesse, il modello è un po' più efficiente nel descrivere l'immagine. B1, B2, B3 e B4 sono considerati punteggi BLEU. C è considerato CIDEr, M è METEOR e R è considerato ROUGE. Per ogni matrice in cui B1 è 0,579, B2 0,404, B3 0,279, B4 0,191, METEOR 0,195, ROUGE 0,396 e CIDEr 0,6, il risultato è rappresentato da 1, come illustrato nella Tabella 2.
| Matrici | Punteggi MSCOCO |
| BLEU1 | 0.579 |
| BLEU2 | 0.404 |
| BLEU3 | 0.279 |
| BLEU4 | 0.191 |
| METEORA | 0.195 |
| ROUGE | 0.396 |
| CIDEr | 0.6 |
Tabella 2: Risultati sperimentali. Questa tabella riassume le prestazioni del modello proposto utilizzando metriche di valutazione come BLEU, METEOR, ROUGE e CIDEr, fornendo una valutazione quantitativa della qualità delle didascalie.

Figura 5: Risultato sperimentale. Questa figura presenta una rappresentazione grafica delle metriche di valutazione, illustrando la performance comparativa del modello tra diverse misure. Clicca qui per visualizzare una versione più grande di questa figura.
Il confronto dei risultati è illustrato nelle Tabelle 3, 4 e 5. I seguenti riferimenti sono elencati nelle Tabelle 3, 3 e 4:10,11,12,13,14
| Metodo | B1 | B2 | B3 | B4 |
| Face-CapF [10] | 0.5713 | 0.3651 | 0.2407 | 0.1652 |
| Face-Init [10] | 0.5663 | 0.3649 | 0.243 | 0.1686 |
| Cappuccio Facciale [11] | 0.589 | 0.3789 | 0.2507 | 0.1719 |
| Face-Step [10] | 0.5843 | 0.3756 | 0.2478 | 0.1696 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.6012 | 0.3992 | 0.2703 | 0.1921 |
| CNN+RNN+ResNet-152 (Proposto) | 0.579 | 0.404 | 0.279 | 0.191 |
Tabella 3: Confronto dei risultati per i punteggi BLEU. Questa tabella confronta i risultati dei punteggi BLEU tra diversi modelli o configurazioni per evidenziare i miglioramenti nella precisione della generazione dei sottotitoli.
Come mostrato nelle Tabelle 3 e 4, CSPDN-BiLSTM-SelfAtt12 ottiene risultati migliori su B1 e B4, mentre CNN+RNN+ResNet-152 si comporta meglio su B2 e B3. CNN+RNN+ResNet-152 è migliore di METER e CIDEr, piuttosto che di ROUGE. Quindi entrambi i metodi sono uguali nei punteggi BLEU, ma quello proposto è migliore degli altri due metri. Quindi la superiorità complessiva nel risultato viene ottenuta dal metodo proposto. Face-CapF10, Face-Init10, Face-CapL11,Face-Step 10 stanno eseguendo la sottotitolazione delle immagini basata sul dataset FlickrFace11K. Ma i risultati sono relativamente scarsi anche per un dataset ampio. Anche se il modello proposto ha un punteggio CIDEr significativamente più alto, questa discrepanza è causata da differenze nella procedura di valutazione, nella preparazione del dataset e nelle specifiche dell'implementazione.
| Metodo | METEORA | CIDEr | ROUGE |
| Face-CapF [10] | 0.1719 | 0.2304 | 0.4476 |
| Face-Init [10] | 0.1717 | 0.2313 | 0.4484 |
| Cappuccio Facciale [11] | 0.1744 | 0.2472 | 0.4547 |
| Face-Step [10] | 0.1745 | 0.2283 | 0.4504 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.1932 | 0.2617 | 0.4793 |
| CNN+RNN+ResNet-152 (Proposto) | 0.195 | 0.6 | 0.396 |
Tabella 4: Confronto dei risultati rispetto a METEOR, CIDEr e ROUGE. Questa tabella fornisce un'analisi comparativa di più metriche di valutazione per valutare la qualità semantica e sintattica delle didascalie generate.
| Metodo | B1 | B2 | B3 | B4 | METEORA | ROUGE |
| Potenziamento Template [13] | 0.238 | 0.109 | 0.05 | 0.022 | 0.096 | 0.249 |
| EfficientNetB0 [14] | 0.2827 | 0.1325 | 0.0588 | 0.0266 | 0.2661 | 0.3609 |
| EfficientNetB1 [14] | 0.289 | 0.1404 | 0.0642 | 0.0286 | 0.271 | 0.3718 |
| ResNet50 [14] | 0.2637 | 0.1217 | 0.0496 | 0.0207 | 0.2437 | 0.3423 |
| MobileNetV2 [14] | 0.2106 | 0.064 | 0.0215 | 0.009 | 0.1794 | 0.2606 |
| CNN+RNN+ResNet-152 (Proposto) | 0.579 | 0.404 | 0.279 | 0.191 | 0.195 | 0.396 |
Tabella 5: Confronto dei risultati per i punteggi BLEU, METEOR e ROUGE. Questa tabella presenta un confronto consolidato delle principali metriche di valutazione per dimostrare l'efficacia complessiva del modello.
Secondo la Tabella 5, EfficientNetB114 è migliore per METEOR, ma CNN+RNN+ResNet-152 è migliore per B1-B 4 e ROUGE. Nel complesso, il risultato proposto è superiore su tutte le metriche BLEU e ROUGE rispetto ai metodi menzionati.
DISPONIBILITÀ DEI DATI:
Tutti i dati grezzi e i file di codifica associati a questo studio sono disponibili nei file supplementari.
Nel campo dell'intelligenza artificiale, la didascalia delle immagini è un compito difficile. La didascalia delle immagini è stata oggetto di numerosi studi, e la didascalia acuta o precisa richiede ancora il massimo livello di precisione. Molte tecniche di machine learning possono essere utilizzate per raggiungere l'obiettivo della didascalia delle immagini, e numerosi studi hanno utilizzato CNN, RNN e ResNet-152. Tuttavia, è necessario aumentare la precisione e ridurre i tempi di elaborazione. Il sistema proposto è costruito utilizzando CNN come codificatore, RNN come decodificatore, Torch Vision come libreria e ResNet come modello di addestramento principale. ResNet utilizza la tecnica della connessione skip per sfruttare i livelli e ottenere prestazioni migliori rispetto ad altri modelli convenzionali come Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2 e molti altri 10,11,12,13,14.
I passaggi critici del lavoro proposto sono l'uso di un filtro intelligente per cancellare le immagini e poi l'estrazione delle caratteristiche con tutti i passaggi primari. Senza un'estrazione precisa delle caratteristiche, non è possibile raggiungere l'obiettivo del modello e, se il sistema non riesce a estrarre correttamente le caratteristiche, la precisione dei punteggi metrici ne risente. La fase di addestramento, eseguita con un'analisi approfondita dei vettori di caratteristiche e del meccanismo di attenzione, ha avuto un ruolo fondamentale nella decodifica dei dati di test. C'è anche un altro passo cruciale coinvolto nel lavoro, ovvero l'aggiornamento della voce. Quando emergono nuove parole durante il test dei dati, queste vengono aggiunte al dizionario per migliorare le prestazioni del modello. Questi passaggi critici hanno svolto un ruolo fondamentale nel raggiungere una maggiore accuratezza, superiore a quella del modello precedentemente suggerito, come il Metodo di Aumento del Template. Il sistema ha addestrato un modello per il benchmark MSCOCO e ha ottenuto un modello più efficace per la didascalia delle immagini.
Se la dimensione dei dati di test aumenta, allora potrebbe essere possibile avere nuove parole collegate alle immagini. Può anche causare irrilevanza durante la generazione delle didascalie, e poi può essere gestita tramite il meccanismo di attenzione, che è stato utilizzato nel modello. Il vocabolario può essere aggiornato tramite un meccanismo di attenzione che può essere efficace per una valutazione successiva. Può essere considerato come autoapprendimento o gestione delle eccezioni. Poiché il modello viene addestrato con MSCOCO, che contiene migliaia di immagini del mondo reale, possono sorgere così tanti oggetti che necessitano di essere aggiornati ad ogni inferenza.
Uno svantaggio di questo lavoro è che, rispetto ai dataset contemporanei usati per l'addestramento, il modello può avere scarse prestazioni su immagini molto più vecchie, specialmente in bianco e nero o immagini storiche di bassa qualità, a causa delle differenze nelle caratteristiche visive, nel contrasto e nella texture. Se le immagini sono scarse in risoluzione, è più difficile estrarre le caratteristiche precise, e ResNet-152 potrebbe degradare la fase di codifica in questo caso. Inoltre, si comporta male su troppe immagini più vecchie, il che significa che quelle immagini sono antiche a causa di vettori di caratteristiche scadenti o danneggiati. Le limitazioni includono la valutazione su un singolo dataset e la mancanza di validazione incrociata.
Rispetto agli approcci convenzionali, il modello proposto è migliore perché migliora l'estrazione delle caratteristiche, migliorando così la generazione delle didascalie delle immagini. Il filtraggio intelligente migliora la fase di estrazione o codifica delle caratteristiche, il che costruisce meglio il modello. ResNet-152 utilizza anche connessioni a salto che sfruttano il tempo durante l'addestramento. Quindi, l'esecuzione è molto più veloce rispetto ad altri modelli comeEfficientNetB0 14. Il meccanismo di attenzione è anche un fattore primario che migliora le prestazioni del modello.
La tecnica può essere utilizzata in sistemi di recupero immagini, sorveglianza automatizzata e tecnologie assistive per persone con disabilità visive. Poiché l'intelligenza artificiale avanza rapidamente, è necessario migliorare il sistema di recupero delle immagini, e questa tecnica può contribuire a questo. Con questo modello, le persone ipovedenti possono ricevere assistenza nel vedere il mondo traducendolo in linguaggio. Ci sono diverse applicazioni importanti e potenziali della didascalia delle immagini.
Gli autori dichiarano di non avere interessi finanziari o relazioni personali in conflitto che possano aver influenzato il lavoro riportato in questo articolo.
Ringraziamo i creatori dei dataset MSCOCO per aver fornito i benchmark utilizzati in questo studio. Gli autori dichiarano che non è stato ricevuto alcun finanziamento esterno per questo studio.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| AMD Ryzen serie 5000 | AMD | 100-100000059WOF | La serie AMD Ryzen 5000 è una linea di processori ad alte prestazioni sviluppata da AMD, basata sull'architettura Zen 3. Questi processori sono ampiamente utilizzati su desktop e laptop sia per l'informatica generale sia per compiti impegnativi come l'elaborazione dati e i flussi di lavoro di machine learning. |
| GPU | NVIDIA | 4.71933E+12 | La NVIDIA GeForce GTX è una serie di unità di elaborazione grafica (GPU) sviluppate da NVIDIA, ampiamente utilizzate sia per il gaming che per compiti di calcolo generico come il deep learning e l'elaborazione delle immagini. |
| Intel Core i5 | Intel | BX8071514400F | Intel Core i5 è una serie di processori di fascia media sviluppata da Intel, ampiamente utilizzata nei personal computer sia per compiti generali che computazionali. |
| Python 3.10 | Python Software Foundation | PEP 619 | Python è un linguaggio di programmazione interpretato ad alto livello ampiamente utilizzato nel calcolo scientifico, nell'analisi dei dati e nel machine learning. È noto per la sua semplicità, leggibilità e l'ampio ecosistema di biblioteche. |
| PyTorch | 26.03-py3 | PyTorch è un framework open source per deep learning sviluppato da Meta Platforms (precedentemente Facebook), ampiamente utilizzato per costruire e addestrare reti neurali nella ricerca e nell'industria. | |
| Codice Visual Studio | Microsoft | Nessuna | Visual Studio Code (VS Code) è un editor di codice open source leggero sviluppato da Microsoft. È ampiamente utilizzato per lo sviluppo software, inclusi progetti di machine learning e deep learning. |
| Windows 11 | Microsoft | KB5083631 | Windows 11 è un sistema operativo sviluppato da Microsoft, ampiamente utilizzato sia per l'informatica generale sia per lo sviluppo software e compiti di machine learning. |
Request permission to reuse the text or figures of this JoVE article
Request Permission