Generazione di didascalie di immagini utilizzando approcci di deep learning

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

Generazione di didascalie di immagini utilizzando approcci di deep learning

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo protocollo utilizza CNN, RNN e ResNet per la didascalia delle immagini, estraendo descrizioni delle attività, persone, oggetti e altri elementi delle immagini. È stato giustificato con punteggi BLEU, CIDEr, METEOR e ROUGE.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La generazione di didascalie didascalie è un tentativo di fornire una descrizione testuale significativa che coinvolga un'immagine. Le informazioni estratte sono rilevanti per le attività presenti nelle immagini. ResNet (Residual Network) è ben noto per la sua capacità di classificare le immagini, avendo sviluppato rappresentazioni gerarchiche profonde. L'intento di questo articolo è utilizzare ResNet con vari filtri intelligenti per classificare le immagini in modo più profondo, permettendo la generazione di descrizioni autentiche e significative, altamente precise rispetto alle didascalie di riferimento. Qui, il lavoro utilizza una tecnica di filtraggio intelligente per migliorare le immagini, una CNN per codificare le caratteristiche, l'addestramento dei modelli e successivamente una RNN (Recurrent Neural Network) per decodificare le caratteristiche. ResNet è un modello molto efficace per compiti di visione artificiale, in particolare per la classificazione degli oggetti e l'analisi semantica. ResNet è ben noto per le connessioni residue, note anche come connessioni saltanti che risolvono il problema del gradiente nullo, un problema cruciale nel deep learning. Qui, il benchmark MSCOCO (Microsoft Common Object in Context) viene utilizzato per addestrare il modello, che è un ampio dataset con annotazioni di riferimento utili per vari compiti di visione artificiale. ResNet aiuta a migliorare la capacità di generalizzazione, particolarmente utile per immagini diverse. Secondo i risultati ottenuti, i punteggi BLUE sono B1: 0,579, B2: 0,404, B3: 0,279, B4: 0,191; METEORE: 0,195; ROUGE: 0,396; e CIDEr: 0,6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nei campi della visione artificiale e dell'elaborazione del linguaggio naturale, la didascalia delle immagini è un compito cruciale che estrae una descrizione dell'immagine e delle azioni che essa rappresenta. L'intenzione del modello è comprendere le immagini e tradurre le informazioni in frasi o didascalie significative¹. L'intera procedura consiste in due fasi significative: la prima è l'estrazione delle caratteristiche, in cui viene utilizzato un modello CNN; la seconda è la descrizione dell'immagine tramite RNN e, nel mezzo, ResNet viene utilizzato per l'analisi semantica, la generazione di sequenze e un meccanismo di attenzione. ResNet è molto diverso dai metodi basati su template o dai moduli basati su DenseNet perché utilizza connessioni skip che riducono i tempi di esecuzione migliorando al contempo le prestazioni. Esistono numerose applicazioni della didascalia di immagini che includono aiutare persone con disabilità visive, potenziare le piattaforme di social media, ottimizzare i motori di ricerca basati su immagini, l'intelligenza artificiale basata su immagini e molte altre².

Nella visione artificiale, il riconoscimento delle scene è il processo di identificazione e classificazione del contesto generale o dell'ambiente dell'immagine, come una spiaggia, un paesaggio urbano, una foresta o un ufficio. A differenza del riconoscimento degli oggetti, che si concentra su singoli oggetti, il riconoscimento delle scene considera texture, disposizioni spaziali e relazioni tra oggetti per comprendere il contesto più ampio. Utilizza CNN e Vision Transformers, modelli di deep learning addestrati su grandi dataset come Places365 e ImageNet. Le applicazioni includono la sorveglianza di sicurezza, la realtà aumentata e virtuale (AR e VR) per esperienze immersive, la robotica per la sensibilizzazione ambientale e i veicoli autonomi per la navigazione. Nonostante i progressi, problemi come i punti di vista variabili, le occlusioni e l'illuminazione variabile rendono il riconoscimento delle scene un argomento caldo nella ricerca sulla visione artificiale e sull'intelligenza artificiale. Un altro problema fondamentale nella visione artificiale è il riconoscimento delle scene.

EnsCaption, un modello di rete generativa e antagionale doppia, è stato proposto per migliorare una tecnica di ensemble^{generazione-recupero 3}. Questo layout consente metodi armoniosi di sottotitolazione delle immagini basati sulla procreazione che generano didascalie allineate agli obiettivi esistenti. Mentre la tecnica basata sul recupero utilizza un modello basato su posizione o gradazione per selezionare il modello migliore per estrarre informazioni con maggiore precisione rispetto agli altri nella query basata su immagini. È stata introdotta una mappatura delle immagini a uno "spazio del significato" utilizzando componenti visivi come oggetti, attività e scene, che sono poi stati allineati con i corrispondenti modelli^{verbali 4}. Utilizzando le correlazioni e le qualità trovate nelle immagini, l'approccio costruisce frasi. Le frasi esprimono informazioni in modo ricco, condensato e sottile. La generazione di sottotitoli basata su template è stata migliorata incorporando conoscenze di buon senso per migliorare la comprensione^{semantica 5}. Questa tecnica ha esteso la portata del modello oltre le caratteristiche dirette dell'immagine, includendo associazioni inferite. Questo lavoro utilizza un dataset esistente di rilevamento di oggetti per estrarre 16.000 affermazioni di buon senso per ogni categoria annotata. Inoltre, la generalizzazione è stata raggiunta utilizzando WordNet, permettendo l'induzione di un gran numero di fatti su oggetti prima^{inosservati 6}. Offre una panoramica di una tassonomia organizzata delle tecniche di deep learning per la sottotitolazione delle immagini, inclusi argomenti come meccanismi di attenzione, tattiche di reinforcement learning e framework encoder-decoder. Oltre ad affrontare questioni come le allucinazioni degli oggetti e la comprensione contestuale, esamina anche dataset e criteri di valutazione comunemente utilizzati. Gli autori indicano aree da approfondire, come il miglioramento delle tecniche di pre-addestramento viso-linguaggio e la riduzione del bias del dataset. Un approccio di analisi semantica basato su reti neurali convoluzionali e reti neurali ricorrenti è stato esplorato per i compiti di didascalia delle immagini⁷. La didascalia delle immagini è uno degli usi più noti, permettendo ai computer di produrre frasi evocative che racchiudono un'immagine. Per fornire descrizioni semantiche significative e di alto livello, questa procedura comporta più che identificare oggetti e scene; Comporta anche l'esame dei loro stati, caratteristiche e interazioni. Nonostante la complessità e la difficoltà intrinseca della didascalia delle immagini, gli accademici hanno compiuto notevoli progressi in questo ambito. Le tre principali tecniche di sottotitolazione di immagini basate su reti neurali profonde trattate in questo studio sono basate su CNN-RNN, CNN-CNN e framework di apprendimento per rafforzamento. È stato introdotto un modello addestrabile end-to-end per la didascalia delle immagini, che integra visione artificiale ed elaborazione del linguaggio naturale per generare descrizioni coerenti delle^{immagini 8}. Per creare una didascalia, utilizza un framework codificatore-decodificatore in cui un LSTM decodifica un'immagine in una stringa di parole dopo che una CNN pre-addestrata l'ha codificata in un vettore di caratteristiche. Nonostante i suoi svantaggi, tra cui le difficoltà con scenari complessi, il contributo del giornale ai progetti di linguaggio visivo è comunque fondamentale^.

ResNet è la rete neurale convoluzionale (CNN) utilizzata nel modello di didascalia delle immagini dell'opera proposta per estrarre ricche informazioni visive dalle immagini di input. ResNet funge da codificatore per produrre un vettore di caratteristiche che rappresenta l'immagine, che viene solitamente utilizzato in un'architettura encoder-decoder. Il decodificatore, che genera didascalie descrittive parola per parola, riceve queste caratteristiche ed è spesso implementato utilizzando una rete neurale ricorrente (RNN), come LSTM o GRU. È possibile aggiungere un meccanismo di attenzione per migliorare le prestazioni permettendo al decodificatore di concentrarsi su specifiche aree dell'immagine mentre genera ogni parola. Per massimizzare l'accuratezza delle didascalie, il modello viene addestrato end-to-end utilizzando una funzione di perdita come la cross-entropia e un dataset come COCO. Il transfer learning e il fine-tuning di ResNet possono migliorare l'estrazione delle caratteristiche, rafforzando ulteriormente il modello e permettendogli di produrre didascalie di alta qualità e contestualmente appropriate su un'ampia gamma di immagini. Nella didascalia delle immagini, ResNet è spesso preferito rispetto ad altri modelli perché affronta efficacemente il problema del gradiente nullo, un problema comune nelle reti neurali profonde. Ciò è reso possibile dai suoi innovativi approcci di apprendimento residuo, che addestrano reti molto più profonde senza sacrificare le prestazioni, utilizzando connessioni di salto per facilitare il flusso di gradiente durante la retropropagazione. Il perceptrone multistrato, una rete neurale feed-forward completamente connessa, è associato allo strato addestrabile. La RNN quindi decodifica le sottotitoli utilizzando il livello softmax, generando didascalie candidate. La funzione di attivazione è f(x), la funzione identità in avanti è f(x) + x, e x è considerata identità, come illustrato nella Figura 1. In questo caso, il sistema utilizza blocchi residui per calibrare il modello durante l'addestramento, e i suoi input passano sia attraverso connessioni di peso che connessioni di salto, note anche come scorciatoie di identità.

Figura 1: Rete di connessione residua. Questa figura illustra l'architettura di una rete residua, evidenziando le connessioni skip che migliorano il flusso di gradiente e mitigano le scadenze durante l'addestramento di rete profonda. Clicca qui per visualizzare una versione più grande di questa figura.

Supponiamo che P_l sia l'uscita; L è il numero di blocchi residui; ReLU dovrebbe essere un blocco consueto se è vicino a 1, ma se non è uguale a 1, allora può essere calcolato come:

Equazione 1 (1)

Qui, b è la variabile casuale, e k è la funzione di mappatura.

Equazione 2 (2)

Qui s_l è considerato come la probabilità di sopravvivenza del sistema proposto;

Equazione 3 (3)

La regola risultante per la probabilità di sopravvivenza come;

Equazione 4 (4)

Dove S_L dovrebbe probabilizzare sopravvivenza così come L è supposto al numero totale. di blocchi.

La didascalia delle immagini è un compito impegnativo che combina l'elaborazione del linguaggio naturale e la visione artificiale per produrre didascalie testuali descrittive per le immagini. Per farlo, bisogna comprendere e interpretare il contenuto visivo di un'immagine e tradurlo in frasi coerenti all'interno del suo contesto. In questo campo, avere dataset estesi e diversificati è fondamentale per la valutazione e l'addestramento dei modelli. Questi dataset offrono una vasta gamma di immagini e annotazioni correlate, fondamentali per sviluppare e testare algoritmi di didascalia delle immagini. I dataset più usati sono MSCOCO e Flickr30k, che contengono milioni di immagini e presentano varie sfide nell'elaborazione delle immagini. MSCOCO è molto più grande di Flickr30k11. Il dataset MS COCO è stato suddiviso nei seguenti set: 82.783 immagini per l'addestramento, 40.504 per la validazione e 40.775 per i test.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L'implementazione è stata effettuata con il modello principale, che è ResNet-152, insieme a un Encoder come CNN, un Decoder come RNN e le risorse della Table of Materials.

ResNet-152
ResNet è considerato la spina dorsale per estrarre le funzionalità in modo più efficiente nella sottotitolazione delle immagini. ResNet offriva prestazioni di addestramento migliori rispetto ad altri modelli, poiché affrontava il problema del gradiente nullo e lo risolveva in modo efficiente. Vari oggetti possono apparire nelle immagini e il modello deve comprenderne le relazioni per una didascalia migliore. Ecco perché può essere considerato un'estrazione gerarchica di caratteristiche. ResNet-152 può gestire compiti complessi di visione artificiale. Il vantaggio principale di questo modello è l'uso efficace delle connessioni residue o di salt. È altamente efficace nell'affrontare il problema del gradiente nullo. Può apprendere funzionalità complesse e robuste per ottenere una maggiore precisione. ResNet-152 seguiva un design a collo di bottiglia che riduceva i costi computazionali e lo rendeva più efficace rispetto ad altre architetture, come VGG-16. Dispone di una solida spina dorsale di apprendimento per trasferimenti adatta a modelli pre-addestrati e a compiti vari come il rilevamento di oggetti e la segmentazione dei dati. La connessione con il skip ha accelerato l'allenamento e lo ha reso più stabile. Rispetto al modello basato su trasformatori, che utilizza un meccanismo di autoattenzione per comprendere i dati sequenziali, ResNet è piuttosto diverso. Un modello basato su trasformatori richiede una grande quantità di dati per una comprensione profonda dei dati testuali, che producono risultati efficaci ma funzionano un po' più lentamente. La motivazione per scegliere ResNet sono le sue connessioni di salto, che velocizzano l'esecuzione con un miglioramento significativo dei risultati. Nel campo della didascalia delle immagini, ResNet viene utilizzato per estrarre le caratteristiche che rappresentano l'oggetto e l'azione eseguita nell'immagine. ResNet utilizzava una rete residua che sfruttava le connessioni di salto. Qui, il blocco residuo può essere calcolato con riferimento all'input Z come:

Equazione 5 (5)

Dove Z è considerato l'ingresso del blocco residuo.
Equazione 6 è una funzione residua che coinvolge la normalizzazione batch, gli strati convoluzionali e l'attivazione di ReLu. {x_i} è considerato il peso di apprendimento dei relativi livelli. Z definisce anche l'identità della connessione di salto, che risolve anche il problema del gradiente nullo. ResNet è generalmente utilizzato come estrattore di caratteristiche per la mappatura visiva delle caratteristiche dalle immagini. Qui, I viene considerata come l'immagine di input per rappresentare le mappe di caratteristiche in una rappresentazione visiva ad alta V.

Equazione 8 (6)

Prima di estrarre le caratteristiche, l'immagine deve essere pre-elaborata per migliorare l'estrazione delle caratteristiche. È considerata un'immagine grezze raccolta dal benchmark MSCOCO, quindi il primo passo nella pre-elaborazione è ridimensionarla e normalizzarla.

Equazione 9 (7)

Equazione 10 (8)

Dove H^lè l'altezza dell'immagine e W^l è il peso dell'immagine. _Ridimensiono l'immagine ridimensionata.

Normalizzare il valore dei pixel dalla distanza [-1, 1] o [0, 1]

Equazione 15 (9)

Dove μ è considerato come il valore medio del pixel σ è considerato come la deviazione standard dell'immagine di riferimento. L'immagine normalizzata viene ora ulteriormente elaborata per l'estrazione delle caratteristiche.

Equazione 18 (10)

Dove Equazione 19 che è considerato come vettore caratteristico. Quando la didascalia della riga viene tokenizzata, viene convertita nel formato numerico.

Equazione 20 (11)

Se la didascalia si divide in parole allora

Equazione 21 (12)

Qui, il vocabolario gioca un ruolo importante, con ogni parola identificata in modo univoco tramite indicizzazione basata su interi.

Equazione 22 (13)

Dove V_c è considerato come una funzione di vocabolario; Deve essere assicurato che tutte le sequenze abbiano una lunghezza pari; quindi l'altezza massima o lunghezza ideale è considerata come L_max.

Equazione 25 (14)

Ora i token vengono incorporati come;

Equazione 26 (15)

per j = 1,2,3, ... .., L_max

Dove Equazione 28 è considerato come un vettore embeddedeto con K dimensioni; ora il decodificatore deve essere usato per decodificare la didascalia per la generazione delle candidate caption, basate su un modello probabilistico.

Equazione 29 (16)

Dove w_j è un'opera con timestamp j, w_{1: j-1} è la parola generata a time stamp j-1 ed _{e j-1} è la caratteristica incorporata con la parola precedente wj-1. Ad ogni timestamp, la rete prevedeva la parola successiva o la probabilità veniva calcolata sul vocabolario.

Equazione 35 (17)

Dove w_{in uscita} è il peso di uscita e b_{in uscita} è il bias di uscita. Quindi la probabilità massima si calcola come

Equazione 38 (18)

La lunghezza massima della didascalia candidata viene calcolata una volta che la parola viene ricevuta o identificata come un token speciale come e . La ricerca a fasci è utile anche per selezionare la didascalia candidata migliore, quindi la sequenza è:

Equazione 39 (19)

Equazione 40 (20)

Quindi la didascalia candidata generata è la sequenza di Equazione 41

La memoria a lungo termine è generalmente utilizzata nella generazione di sequenze. LSTM utilizza una CNN come estrattore di caratteristiche e genera parole in sequenza per creare frasi significative. LSTM calcola la porta di dimenticare a ogni timestamp T.

Equazione 42

Dove f_t è considerato come dimentica la porta, σ è considerato come funzione di attivazione, w_f è considerato come peso e b_f come bias,

Y_t è considerato come vettore di caratteristica in ingresso, H_T-1 è considerato come stato nascosto.

Equazione 48 (22)

Equazione 49 (23)

J_t è considerato come input, Equazione 106 è considerato come stato candidato, w_j e_{w c} sono considerati rispettivamente come peso per input e stato candidato, b_j e_{b c} o come bias.

Equazione 54 (24)

C_t è considerato come stato completo, C_t-1 è considerato stato precedente.

Equazione 57 (25)

O_t è considerato come output, w_o come peso e b_o come bias. Per inizializzare gli stati nascosti e celle sono necessari i seguenti calcoli.

Equazione 61 (26)

Equazione 62 (27)

Dove h_i e C_i sono considerati rispettivamente come stato nascosto e quello della cella, w_h e w_c sono pesi per lo stato nascosto e quello della cella a vela, b_c e b_h sono considerati come bias, k è considerato come estrattore di caratteristiche. La sequenza della didascalia viene calcolata come:

Equazione 69 (28)

Dove T è la lunghezza della didascalia generata.

254 × 254 × 3 è l'immagine ridimensionata o pre-trattata, e I è considerata l'immagine di input.

Equazione 71 (29)

Dove W e b sono considerati rispettivamente come peso e bias, I è considerato come caratteristiche di input, e ReLU è la funzione di attivazione. È il calcolo dello strato convoluzionale. Ora lo strato di pooling può essere calcolato come:

Equazione 72 (30)

Dopo aver finalizzato lo strato di pooling; Il livello completamente connesso può essere mappato come:

Equazione 73 (31)

Dove w_f e b_f sono considerati rispettivamente come peso e bias della rete.

Equazione 74 (32)

Equazione 75 (33)

Dove N è considerato come la regione spaziale e d come la dimensione della caratteristica.

Equazione 76 (34)

Equazione 77 (35)

Dove w_h e b_h sono considerati rispettivamente come peso e bias dello stato nascosto, w_c e b_c come peso e bias dello stato cellulare. La didascalia può essere generata come:

Equazione 78 (36)

Codificatore e decodificatore
Il sistema proposto codifica i dati per la traduzione automatica utilizzando una CNN. In questo caso, l'ingresso e l'uscita sono entrambe sequenze, ma possono differire per lunghezza. Uno alla volta, la macchina codifica e decodifica ogni vettore. Utilizzando un vettore come punto di partenza, la macchina inizia a codificare e decodificare, e continua a calcolare fino alla distribuzione di probabilità condizionata finale. Un esempio è il seguente:

Equazione 80 (37)

Questa è considerata la distribuzione di probabilità.

Il sistema può codificare i dati sotto forma di immagine vettoriale, e successivamente può essere decodificato. fc_n (I) è considerato il modello d'immagine per la comprensione delle immagini.

Equazione 83 (38)

Equazione 84 (39)

Equazione 85 (40)

S₁ è l'iterazione successiva di S₀, e S₂ è l'iterazione successiva di S₁. Si potrebbe dire che ogni input dipende dall'output del livello precedente. Le immagini vengono convertite in vettori da CNN e inviate al livello successivo, che attraversa tutti i vettori. Qui, viene utilizzato un meccanismo di attenzione per ordinare sequenzialmente le parole in una frase significativa dopo che la RNN ha decodificato i vettori in parole.

Equazione 86 (41)

Dove T è la lunghezza dell'ingresso.

Equazione 87 (42)

Equazione 88 (43)

k₁, k₂, k₃, k₄, ......, k_t-1 sono stati di decodifica nascosti.

Figura 2: Modello di codifica e decodifica. Questa figura presenta il framework codificatore–decodificatore utilizzato per la didascalia delle immagini, mostrando come le caratteristiche dell'immagine vengano codificate in rappresentazioni vettoriali e successivamente decodificate in descrizioni testuali sequenziali. Clicca qui per visualizzare una versione più grande di questa figura.

Modello di processo
Vedi la Figura 3, che mostra il diagramma di flusso dei moduli di addestramento, dove il dataset e le didascalie di base sono stati caricati per primi. Dopo che i dati sono stati normalizzati per la codifica CNN, il modello ResNet viene inizializzato e addestrato utilizzando le caratteristiche estratte. RNN e le parole specifiche del sistema etichettate con marcatori di inizio e fine possono quindi essere usate per decifrare la didascalia. Il sistema completa l'estrazione se si trova l'ultima parola, e N è il numero totale di parole nella didascalia candidata.

Figura 3: Diagramma di flusso del modello di addestramento. Questa figura delinea il processo passo dopo passo coinvolto nell'addestramento del modello, inclusi la preprocessing dei dati, l'estrazione delle caratteristiche, l'apprendimento del modello e l'ottimizzazione. Clicca qui per visualizzare una versione più grande di questa figura.

Il diagramma di flusso del modello di prova è mostrato nella Figura 4, dove il sistema carica prima i modelli di codificatore e decodificatore, poi carica il modello ResNet e i dati di input per l'estrazione delle didascalie. Se non ci sono stati errori di decodifica, si può inferire dalla prima alla ultima parola. Dopo aver raggiunto l'ultima parola, si possono ottenere parole decodificate e si può creare una didascalia impiegando un meccanismo di attenzione per ordinare sequenzialmente le parole in modo significativo. La dimensione del fascio del modello di addestramento è di cinque con una lunghezza massima di 20, mentre il suo lotto è di 128 con 20 epoche.

Figura 4: Diagramma di flusso del modello di test. Questa figura rappresenta il flusso di lavoro dei test, mostrando come le immagini di input vengono elaborate attraverso il modello addestrato per generare didascalie e valutare le prestazioni. Clicca qui per visualizzare una versione più grande di questa figura.

Algoritmo di didascalia delle immagini ResNet-152
Si inizializzano i parametri di input e output, e qui l'input viene preso come insieme delle immagini MSCOCO poiché I = (i₁, i₂, _{i 3}, ....... i_N) insieme all'annotazione J = (j₁, j₂, j₃, ......... j_N) e l'output viene calcolato come didascalie. Nel primissimo passaggio è necessario un input, poi pre-elaborare le immagini ridimensionando il rapporto d'aspetto come

Equazione 92 (44)

Dove w e h sono la larghezza e l'altezza originali dell'immagine, w_nuovo e h_nuovo sono le dimensioni ridimensionate, T_s è considerato una dimensione target predefinita (T_s = 224), max(w, h) definisce la dimensione più grande, che è stata scalata per mantenere il rapporto d'aspetto.

Dopo l'estrazione delle caratteristiche, è necessario dichiarare il blocco identità come

Equazione 100 (45)

Poi inizializza i parametri come la dimensione del lotto, il numero di epoche, W_nascostocome peso per i livelli nascosti, W_come per il livello di output, e B_altezza , B_biascome bias. Una volta effettuata l'inizializzazione, è necessario calcolare l'output dello strato convoluzionale.

Equazione 101 (46)

Può essere considerato un blocco ReLU normale se b_l è equivalente a 1. Ma se b_l non è uguale a 1 né equivalente a 0, allora sarebbe;

Equazione 102 (47)

Poi calcola la fattibilità della sopravvivenza tramite

Equazione 103 (48)

Dove F_K è considerato come la fattibilità di sopravvivenza del sistema, e K si prende come rappresentante il numero totale di blocchi nel modello. Poi calcola la distribuzione di probabilità

Equazione 104 (49)

Una volta calcolata la distribuzione di probabilità, costruisce il modello per accedervi e decodificare i dati utilizzando.

Equazione 105 /9500

k₁, k₂, k₃, k₄, ......, k_t-1 sono stati di decodifica nascosti.

Quando si accede al modello, è necessario applicare meccanismi di attenzione per la generazione delle didascalie che valutino la didascalia candidata rispetto a quella di riferimento; le metriche finali possono poi essere valutate utilizzando BLEU, METEOR, CIDEr e ROUGE.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Specifiche software e ambienti
Python 3.10 era il linguaggio di programmazione principale utilizzato per gli esperimenti. Visual Studio Code veniva utilizzato per configurare l'ambiente di sviluppo (VS Code). Le librerie importanti utilizzate in questa ricerca includono Pickle per la serializzazione dei dati, multiprocessing per l'elaborazione parallela, glob per la gestione dei file e PyTorch per lo sviluppo di modelli di deep learning. La configurazione hardware includeva 256 GB di memoria, 8 GB di ...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nel campo dell'intelligenza artificiale, la didascalia delle immagini è un compito difficile. La didascalia delle immagini è stata oggetto di numerosi studi, e la didascalia acuta o precisa richiede ancora il massimo livello di precisione. Molte tecniche di machine learning possono essere utilizzate per raggiungere l'obiettivo della didascalia delle immagini, e numerosi studi hanno utilizzato CNN, RNN e ResNet-152. Tuttavia, è necessario aumentare la precisione e ridurre i tempi di elabo...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Gli autori dichiarano di non avere interessi finanziari o relazioni personali in conflitto che possano aver influenzato il lavoro riportato in questo articolo.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ringraziamo i creatori dei dataset MSCOCO per aver fornito i benchmark utilizzati in questo studio. Gli autori dichiarano che non è stato ricevuto alcun finanziamento esterno per questo studio.

Access restricted. Please log in or start a trial to view this content.

Materials

```html

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	La serie AMD Ryzen 5000 è una linea di processori ad alte prestazioni sviluppata da AMD, basata sull'architettura Zen 3. Questi processori sono ampiamente utilizzati in desktop e laptop sia per il calcolo generale che per attività impegnative come l'elaborazione dei dati e i flussi di lavoro di apprendimento automatico.
GPU	NVIDIA	4.71933E+12	La NVIDIA GeForce GTX è una serie di unità di elaborazione grafica (GPU) sviluppate da NVIDIA, ampiamente utilizzate per il gaming e per attività di calcolo generali come l'apprendimento profondo e l'elaborazione delle immagini.
Intel Core i5	Intel	BX8071514400F	Intel Core i5 è una serie di processori di fascia media sviluppata da Intel, ampiamente utilizzata nei computer personali sia per attività generali che computazionali.
Python 3.10	Python Software Foundation	PEP 619	Python è un linguaggio di programmazione interpretato di alto livello ampiamente utilizzato nel calcolo scientifico, nell'analisi dei dati e nell'apprendimento automatico. È noto per la sua semplicità, leggibilità e vasto ecosistema di librerie.
PyTorch	Facebook	26.03-py3	PyTorch è un framework di apprendimento automatico open-source sviluppato da Meta Platforms (ex Facebook), ampiamente utilizzato per la costruzione e l'addestramento di reti neurali nella ricerca e nell'industria.
Visual Studio Code	Microsoft	Nessuno	Visual Studio Code (VS Code) è un editor di codice leggero e open-source sviluppato da Microsoft. È ampiamente utilizzato per lo sviluppo software, inclusi progetti di apprendimento automatico e apprendimento profondo.
Windows 11	Microsoft	KB5083631	Windows 11 è un sistema operativo sviluppato da Microsoft, ampiamente utilizzato per il calcolo generale e per le attività di sviluppo software e apprendimento automatico.

```

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Generazione di didascalie di immagini utilizzando approcci di deep learning

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles