Derin Öğrenme Yaklaşımları Kullanılarak Görsel Başlık Oluşturma

Arun  Pratap Singh; Manish Manoria; Sunil Joshi

doi:10.3791/71528

Research Article

Derin Öğrenme Yaklaşımları Kullanılarak Görsel Başlık Oluşturma

DOI:

10.3791/71528

⸱

June 12th, 2026

Arun Pratap Singh¹ , Manish Manoria² , Sunil Joshi¹

¹Samrat Ashok Technological Institute, ²Rungta Group of Institutes (R1)

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu protokol, görüntü altyazısı için CNN'ler, RNN'ler ve ResNet'leri kullanır; görüntülerin faaliyetleri, insanları, nesneleri ve diğer öğelerin açıklamalarını çıkarır. BLEU, CIDEr, METEOR ve ROUGE metrik puanlarıyla haklı çıkarılmıştır.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Resim başlığı oluşturma, bir görseli içeren anlamlı bir metin açıklaması sunma çabasıdır. Çıkarılan bilgiler, görüntülerdeki faaliyetlerle ilgilidir. ResNet (Rezidual Network), görüntüleri sınıflandırma yeteneğiyle tanınır ve derin hiyerarşik temsiller geliştirmiştir. Bu makalenin amacı, ResNet'i çeşitli akıllı filtrelerle kullanarak görüntüleri daha derinlemesine sınıflandırmak, böylece referans başlıklarına göre son derece hassas gerçek ve anlamlı açıklamalar oluşturulmasını sağlamaktır. Burada çalışma, görüntüleri geliştirmek için akıllı bir filtreleme tekniği, özellikleri kodlamak için CNN, model eğitimi ve ardından özellikleri çözmek için bir RNN (Tekrarlayan Sinir Ağı) kullanıyor. ResNet, özellikle nesne sınıflandırması ve anlamsal analiz olmak üzere bilgisayar görüşü görevleri için çok etkili bir modeldir. ResNet, derin öğrenmede kritik bir sorun olan kaybolan gradyan problemini çözen atlayan bağlantılar olarak da bilinen kalıntı bağlantılarıyla iyi bilinir. Burada, MSCOCO (Microsoft Common Object in Context) kıyaslası modeli eğitmek için kullanılır; model, çeşitli bilgisayar görüşü görevleri için faydalı referans açıklamaları içeren büyük bir veri setidir. ResNet, özellikle çeşitli görseller için kullanışlı olan genelleme yeteneğini artırmaya yardımcı olur. Elde edilen sonuçlara göre, BLUE puanları B1: 0.579, B2: 0.404, B3: 0.279, B4: 0.191; METEOR: 0.195; ROUGE: 0.396; ve CIDEr: 0.6.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bilgisayar görme ve doğal dil işleme alanlarında, görüntü altyazısı görüntünün ve onun temsil ettiği eylemlerin tanımını çıkaran kritik bir görevdir. Modelin amacı, görüntüleri anlamak ve bilgileri anlamlı cümlelere veya başlıklara^{çevirmektir 1}. Tüm süreç iki önemli aşamadan oluşur: ilki özellik çıkarımıdır, burada CNN modeli kullanılır; ikincisi ise RNN & kullanılarak görüntü açıklamasıdır; arada ise ResNet anlamsal analiz, dizi üretimi ve dikkat mekanizması için kullanılır. ResNet, şablon tabanlı yöntemler veya DenseNet tabanlı modüllerden çok farklıdır çünkü çalışma süresini azaltırken performansı artıran atlama bağlantılarını kullanır. Görsel altyazının birçok uygulaması vardır; bunlar arasında görme engelli bireylere yardımcı olmak, sosyal medya platformlarını güçlendirmek, görüntü tabanlı arama motorlarını optimize etmek, görsel tabanlı yapay zeka (yapay zeka) ve daha fazlası^vardır.

Bilgisayar görüşünde, sahne tanıma, bir plaj, şehir manzarası, orman veya ofis gibi görüntünün genel bağlamını veya ortamını tanımlama ve sınıflandırma sürecidir. Nesne tanıma, bireysel öğelere odaklanırken, sahne tanıma daha geniş bağlamı anlamak için dokuları, mekânsal düzenlemeleri ve nesne ilişkilerini dikkate alır. CNN'ler ve Vision Transformers kullanıyor; Places365 ve ImageNet gibi büyük veri setlerinde eğitilmiş derin öğrenme modelleri kullanılıyor. Uygulamalar arasında güvenlik gözetim, sürükleyici deneyimler için artırılmış ve sanal gerçeklik (AR ve VR), çevresel farkındalık için robotik ve navigasyon için otonom araçlar yer almaktadır. Gelişmelere rağmen, bakış açılarının değişmesi, tıkanmalar ve değişen aydınlatma gibi sorunlar, sahne tanıma, bilgisayar görme ve yapay zeka araştırmalarında güncel bir konu haline geliyor. Bilgisayar görüşündeki bir diğer temel sorun ise sahne tanımadır.

EnsCaption, çift üretken bir düşman ağ modeli, bir nesil getirme topluluk^{tekniğini geliştirmek için önerildi 3}. Bu düzen, mevcut hedeflerle uyumlu altyazılar oluşturan uyumlu, üreme tabanlı görsel altyazı yöntemlerini mümkün kılar. Geri alma tabanlı teknik, görüntü tabanlı sorguda diğerlerinden daha hassas bilgi çıkarmak için en iyi modeli seçmek için konum veya derecelendirme tabanlı bir model kullanır. Nesneler, aktiviteler ve sahneler gibi görsel bileşenler kullanılarak görüntülerin "anlam alanı" eşlenmesi getirildi ve bu bileşenler ilgili sözlü şablonlarla^{hizalandı 4}. Görüntülerdeki korelasyonları ve nitelikleri kullanarak yaklaşım ifadeler oluşturur. Cümleler bilgiyi zengin, kısılmış ve ince bir şekilde ifade eder. Şablon tabanlı başlık üretimi, anlamsal anlayışı geliştirmek için sağduyu bilgisinin dahil edilmesiyle^{geliştirilmiştir 5}. Bu teknik, şablonun erişimini doğrudan görüntü özelliklerinin ötesine çıkarılmış çağrışımları da kapsayarak genişletti. Bu çalışma, her annotasyonlu kategori için 16.000 sağduyu ifade çıkarmak amacıyla mevcut bir nesne algılama veri setini kullanmaktadır. Ayrıca, WordNet kullanılarak genelleştirme sağlandı ve daha önce görülmeyen nesneler hakkında çok sayıda gerçeklik^{alınmasını sağladı 6}. Dikkat mekanizmaları, pekiştirici öğrenme taktikleri ve kodlayıcı-kodlayıcı çerçeveleri gibi konuları içeren görsel altyazı için derin öğrenme tekniklerinin organize bir taksonomisini inceleme sunar. Nesne halüsinasyonu ve bağlamsal kavrayım gibi konuları ele almanın yanı sıra, yaygın kullanılan veri setleri ve değerlendirme kriterlerini de inceler. Yazarlar, vizyon-dil ön eğitim tekniklerinin geliştirilmesi ve veri seti yanlılığını azaltmak gibi daha fazla çalışma alanı işaret ediyor. Görsel altyazı görevleri için konvolüsyon sinir ağları ve tekrarlayan sinir ağlarına dayalı bir anlamsal analiz yaklaşımı^{araştırıldı 7}. Resim altyazısı, bilgisayarların bir görseli kapsayan etkileyici ifadeler üretmesini sağlayan en bilinen kullanımlardan biridir. Yüksek seviyeli, anlamsal tanımlar sağlamak için bu prosedür sadece nesneleri ve sahneleri tanımlamayı gerektirmez; aynı zamanda durumlarını, özelliklerini ve etkileşimlerini incelemeyi de içerir. Görsel altyazı oluşturmanın karmaşıklığı ve zorluğuna rağmen, akademisyenler bu alanda etkileyici ilerlemeler kaydetmiştir. Bu çalışmada ele alınan üç ana derin sinir ağı tabanlı görsel altyazı tekniği, CNN-RNN tabanlı, CNN-CNN tabanlı ve güçlendirme öğrenme çerçeveleridir. Görsellerin tutarlı tanımlarını oluşturmak için bilgisayar görme ve doğal dil işleme entegrasyonu ile uçtan uca eğitilebilir bir model^{tanıtıldı 8}. Bir başlık oluşturmak için, bir LSTM'nin bir görüntüyü önceden eğitilmiş bir CNN özelliği vektör olarak kodladıktan sonra bir kelime dizisine dönüştürdüğü bir kodlayıcı-kodlayıcı çerçevesi kullanır. Karmaşık manzaralarla ilgili zorluklar gibi eksikliklerine rağmen, makalenin görme dili görevlerine katkısı yine de temel^{bir noktadır.}

ResNet, önerilen çalışmanın görsel altyazı modelinde giriş görüntülerinden zengin görsel bilgi çıkarmak için kullanılan konvolüsyon sinir ağıdır (CNN). ResNet, genellikle kodlayıcı-çözücü mimarisinde kullanılan görüntüyü temsil eden bir özellik vektörü üretmek için bir kodlayıcı görevi görür. Kelime kelime tanımlayıcı başlıklar üreten çözücü, bu özellikleri alır ve genellikle LSTM veya GRU gibi tekrarlayan bir sinir ağı (RNN) kullanılarak uygulanır. Performansı artırmak için bir dikkat mekanizması eklenebilir; böylece kod çözücü her kelimeyi oluştururken görüntünün belirli bölgelerine odaklanabilir. Altyazı doğruluğunu maksimize etmek için, model çapraz entropi gibi bir kayıp fonksiyonu ve COCO gibi bir veri seti kullanılarak uçtan uca eğitilir. Transfer öğrenme ve ResNet ince ayarı, özellik çıkarımı geliştirerek modeli daha da güçlendirebilir ve geniş bir görsel yelpazesinde yüksek kaliteli, bağlama uygun altyazılar üretmesini sağlar. ResNet görsel altyazı alanda, derin sinir ağlarında yaygın bir sorun olan kaybu gradyan sorununu etkili bir şekilde ele aldığı için diğer modellere tercih edilir. Bu, geri yayılma sırasında gradyan akışını kolaylaştırmak için atlama bağlantıları kullanarak performanstan ödün vermeden önemli ölçüde daha derin ağları eğiten yenilikçi kalıntı öğrenme yaklaşımları sayesinde mümkün olur. Çok katmanlı perceptron, tamamen bağlantılı bir besleme ile, yönlendirilebilir katmanla ilişkilendirilir. RNN daha sonra softmax katmanını kullanarak altyazıları çözer ve aday altyazıları üretir. Aktivasyon fonksiyonu f(x), ileri kimlik fonksiyonu f(x) + x ve x kimlik olarak kabul edilir; bu Şekil 1'de gösterilmiştir. Bu durumda, sistem eğitim sırasında modeli kalibre etmek için kalıntı bloklar kullanır ve girdileri hem ağırlık bağlantılarından hem de atlama bağlantılarından geçer; bu bağlantılar kimlik kısayolları olarak da adlandırılır.

Şekil 1: Kalıntı bağlantı ağı. Bu şekil, kalıntı ağın mimarisini göstermekte, gradyan akışını iyileştiren ve derin ağ eğitimi sırasında kaybolan gradyanları azaltan atlama bağlantılarını vurguluyor. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

P_l'nin çıktı olduğunu varsayalım; Ben hayır. kalıntı bloklardan; ReLU, 1'e yakınsa geleneksel bir blok olarak kabul edilir, ancak 1'e eşit değilse şu şekilde hesaplanabilir:

Denklem 1 (1)

Burada, b rastgele değişken, k ise eşleme fonksiyonudur.

Denklem 2 (2)

Burada s_l , önerilen sistemin hayatta kalma olasılığı olarak kabul edilir;

Denklem 3 (3)

Hayatta kalma olasılığı için ortaya çıkan kural şöyledir;

Denklem 4 (4)

Burada S_L hayatta kalma olasılığına ve L'nin toplam no'ya göre olduğu gibi. bloklardan.

Görsel altyazı, doğal dil işleme ve bilgisayar görüşünü birleştirerek resimler için betimleyici metin başlıkları üreten zorlu bir görevdir. Bunu yapmak için, bir görüntünün görsel içeriğini anlamalı, yorumlamalı ve bağlamında tutarlı cümlelere çevirmelidir. Bu alanda, model değerlendirmesi ve eğitimi için kapsamlı ve çeşitli veri setlerine sahip olmak çok önemlidir. Bu veri setleri, resim altyazı algoritmalarının geliştirilmesi ve test edilmesi için kritik olan çok çeşitli görsel ve ilgili açıklamalar sunar. En sık kullanılan veri setleri, milyonlarca görüntü içeren ve görüntü işlemede çeşitli zorluklar doğuran MSCOCO ve Flickr30k'dır. MSCOCO, Flickr30k11'den çok daha büyüktür. MS COCO veri seti şu setlere ayrılmıştır: eğitim için 82.783 görüntü, doğrulama için 40.504 ve test için 40.775.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Uygulama, ana model olan ResNet-152 ile yapılmış, CNN olarak bir Kodlayıcı, RNN olarak bir Kodlayıcı ve Materyal Tablosu'ndan kaynaklar ile yapılmıştır.

ResNet-152
ResNet, görsel altyazıda özellikleri daha verimli çıkarmanın bel kemiği olarak kabul edilir. ResNet, kaybolan gradyan sorununu ele alarak ve etkili şekilde çözerek diğer modellere göre daha iyi eğitim performansı sağladı. Çeşitli nesneler görsellerde görünebilir ve modelin daha iyi altyazı için onların ilişkilerini anlaması gerekir. Bu yüzden hiyerarşik bir özellik çıkarımı olarak kabul edilebilir. ResNet-152, karmaşık bilgisayar görme görevlerini üstlenebilir. Bu modelin temel avantajı, kalıcı veya atlama bağlantılarının etkili kullanımıdır. Kaybolan gradyan sorununu ele almada son derece etkilidir. Daha yüksek doğruluk sağlamak için karmaşık ve sağlam özellikleri öğrenebilir. ResNet-152, hesaplama maliyetini azaltan ve VGG-16 gibi diğer mimarilerden daha etkili hale getiren darboğaz tasarımını takip etti. Önden eğitilmiş modeller ve nesne algılama ile veri segmentasyonu gibi çeşitli görevler için uygun belirgin bir transfer öğrenme omurgasına sahiptir. Atlama bağlantısı antrenmanı hızlandırdı ve daha stabil hale getirdi. Transformatör tabanlı modele kıyasla, ardışık verileri anlamak için öz-dikkat mekanizması kullanan ResNet oldukça farklıdır. Transformator tabanlı bir model, metin verilerinin derinlemesine anlaşılması için büyük miktarda veri gerektirir; etkili sonuçlar verir ancak biraz daha yavaş çalışır. ResNet'i seçmenin motivasyonu, sonuçların önemli bir iyileşmesiyle uygulamayı hızlandıran atlama bağlantılarıdır. ResNet altyazı alanında, nesneyi ve görüntüde gerçekleştirilen eylemi temsil eden özellikleri çıkarmak için ResNet kullanılır. ResNet, atlama bağlantılarından yararlanan bir kalıntı ağ kullanıyordu. Burada, kalıntı blok, girdi Z referansıyla şu şekilde hesaplanabilir:

Denklem 5 (5)

Burada Z, kalıntı bloğun girişi olarak kabul edilir.
Denklem 6 parti normalizasyonu, konvolüsyon katmanlar ve ReLu aktivasyonunu içeren kalıntı bir fonksiyondur. {x_i}, ilgili katmanların öğrenme ağırlığı olarak kabul edilir. Z ayrıca atlama bağlantı kimliğini tanımlar; bu da yok gradyanı sorununu çözer. ResNet genellikle görüntülerden görsel özellik eşlemesi için bir özellik çıkarıcı olarak kullanılır. Burada, I , özellik haritalarını yüksek görsel özellik temsili V'ye temsil etmek için giriş görüntüsü olarak kabul edilir.

Denklem 8 (6)

Özellikler çıkarmadan önce, görüntü ön işlenmiş ve özellik çıkarımı iyileştirmelidir. MSCOCO kıyaslamasından toplanan ham bir görüntü olarak kabul edilir, bu yüzden ön işlemenin ilk adımı onu yeniden boyutlandırıp normalleştirmektir.

Denklem 9 (7)

Denklem 10 (8)

Burada H^lgörüntünün yüksekliği, W^l ise görüntünün ağırlığıdır. Ben yeniden_{boyutlandırdığım} görüntü olarak yeniden boyutlandırılıyor.

Piksel değerini [-1, 1] veya [0, 1] aralığından normalleştirmek için

Denklem 15 (9)

Burada μ, pikselin ortalama değeri olarak kabul edilir σ referans edilen görüntünün standart sapması olarak kabul edilir. Normalize edilmiş görüntü artık özellik çıkarımı için daha fazla işlenir.

Denklem 18 (10)

Burada Denklem 19 bu özellik vektörü olarak kabul edilir. Satır başlığı tokenize edildiğinde, sayısal formata dönüştürülür.

Denklem 20 (11)

Eğer başlık kelimelere bölünürse

Denklem 21 (12)

Burada, kelime dağarcığı önemli bir rol oynar; her kelime tam sayı tabanlı indeksleme ile benzersiz şekilde tanımlanır.

Denklem 22 (13)

Burada V_c, bir kelime dağarcığı fonksiyonu olarak kabul edilir; Tüm dizilerin çift uzunlukta olduğundan emin olmak gerekir; yani maksimum yükseklik veya ideal uzunluk L_max olarak kabul edilir.

Denklem 25 (14)

Şimdi token olarak gömülüyor;

Denklem 26 (15)

j = 1,2,3, ... .., L_max için

Burada Denklem 28 K boyutlu gömülü bir vektör olarak kabul edilir; şimdi dekoder, olasılıksal modele dayalı aday altyazı üretimi için başlığı çözmek için kullanılır.

Denklem 29 (16)

W _j, j zaman damgasında bir eser, w_{1: j-1}, zaman damgası j-1'de oluşturulan kelime ve e_j-1, önceki wj-1 kelimesiyle gömülü özelliktir. Her zaman damgasında, bir sonraki kelime veya olasılık tahmin edilen ağ kelime üzerinde hesaplanır.

Denklem 35 (17)

Burada w_çıkış çıkış ağırlığı, b_çıkış ise çıkış yanlılığıdır. Yani maksimum olasılık şu şekilde hesaplanır:

Denklem 38 (18)

Aday başlığının maksimum uzunluğu, kelimesi alındığında veya ve gibi özel bir token olarak tanımlandığında hesaplanır. Beam araması ayrıca daha iyi aday başlığı seçmek için de faydalıdır, bu yüzden sıralama şöyledir:

Denklem 39 (19)

Denklem 40 (20)

Yani oluşturulan aday başlığı şu dizidir: Denklem 41

Uzun Kısa Süreli Bellek genellikle dizi üretiminde kullanılır. LSTM, bir özellik çıkarıcı olarak CNN kullanır ve anlamlı cümleler oluşturmak için kelimeleri ardışık olarak üretir. LSTM, her zaman damgası T'de unut kapısını hesaplar.

Denklem 42

f_t forget gate, σ aktivasyon fonksiyonu, w_f ağırlık ve b_f yanlılık olarak kabul edilir,

y_t giriş özellik vektörü olarak kabul edilirken, h_t-1 gizli durum olarak kabul edilir.

Denklem 48 (22)

Denklem 49 (23)

J_t girdi olarak kabul edilir, Denklem 106 aday durum olarak kabul edilir, w_j ve w_c girdi ve aday durum için ağırlık olarak kabul edilir, b_j ve b_c veya yanlılık olarak kabul edilir.

Denklem 54 (24)

C_t tüm durum olarak kabul edilir, C_t-1 önceki durum olarak kabul edilir.

Denklem 57 (25)

O_t çıktı olarak kabul edilir, W_o ağırlık olarak ve b_o önyargı olarak kabul edilir. Gizli ve hücre durumlarını başlatmak için aşağıdaki hesaplamalar gereklidir.

Denklem 61 (26)

Denklem 62 (27)

H_i ve C_i sırasıyla gizli ve hücre durumu olarak kabul edilirken, w_h ve w_c sırasıyla gizli ve yelken hücre durumu için ağırlıklardır, b_c ve b_h önyargı olarak kabul edilir, k ise özellik çıkarıcı olarak kabul edilir. Başlığın dizisi şu şekilde hesaplanır:

Denklem 69 (28)

Burada T, oluşturulan başlığın uzunluğudur.

254 × 254 × 3, yeniden boyutlandırılmış veya önceden işlenmiş görüntüdür ve I giriş görüntüsü olarak kabul edilir.

Denklem 71 (29)

W ve b ağırlık ve yanlılık olarak kabul edilirken, I giriş özellikleri olarak kabul edilir ve ReLU aktivasyon fonksiyonudur. Bu, konvolüsyon katmanın hesaplanmasıdır. Şimdi havuzlama katmanı şu şekilde hesaplanabilir:

Denklem 72 (30)

Havuzlama katmanı tamamlandıktan sonra; Tam bağlı katman şu şekilde eşlenebilir:

Denklem 73 (31)

Burada w_f ve b f sırasıyla ağın ağırlık ve yanlılığı olarak kabul edilir.

Denklem 74 (32)

Denklem 75 (33)

Burada N, mekansal bölge, d ise özelliğin boyutu olarak kabul edilir.

Denklem 76 (34)

Denklem 77 (35)

W _h ve b_h sırasıyla gizli durumun ağırlık ve yanlılığı olarak kabul edilirken, w_c ve b_c sırasıyla hücre durumu ağırlıkı ve yanlılığı olarak kabul edilir. Başlık şu şekilde oluşturulabilir:

Denklem 78 (36)

Kodlayıcı ve kodlayıcı
Önerilen sistem, CNN kullanarak makine çevirisi için verileri kodlar. Bu durumda, giriş ve çıkış ikisi de dizilidir, ancak uzunlukları farklılık gösterebilir. Makine her vektörü tek tek kodlar ve çözer. Bir vektör başlangıç noktası olarak kullanılarak, makine kodlama ve kod çözmeye başlar ve nihai koşullu olasılık dağılımına kadar hesaplamaya devam eder. Bir örnek şöyledir:

Denklem 80 (37)

Bu, olasılık dağılımı olarak kabul edilir.

Sistem, veriyi vektör görüntüsü şeklinde kodlayabilir ve daha sonra çözülebilir. fc_n (I), görüntü anlama için görüntü modeli olarak kabul edilir.

Denklem 83 (38)

Denklem 84 (39)

Denklem 85 (40)

S₁ , S_0'ın sonraki yinelemesidir ve S₂ , S_1'in sonraki yinelemesidir. Her girişin önceki katmanın çıktısına bağlı olduğu söylenebilir. Görüntüler CNN tarafından vektörlere dönüştürülür ve tüm vektörleri geçen bir sonraki katmana gönderilir. Burada, RNN vektörleri kelimelere dönüştürdükten sonra kelimeleri anlamlı bir cümle haline sıralı olarak düzenlemek için bir dikkat mekanizması kullanılır.

Denklem 86 (41)

Burada T, girişin uzunluğudur.

Denklem 87 (42)

Denklem 88 (43)

k₁, k₂, k₃, k₄, ......, k_t-1 gizli kod çözme durumlarıdır.

Şekil 2: Kodlama ve çözme modeli. Bu şekil, görüntü başlığı için kullanılan kodlayıcı–kodlayıcı çerçevesini sunar ve görüntü özelliklerinin vektör temsillerine nasıl kodlandığını ve ardından ardışık metin açıklamalarına nasıl dönüştürüldüğünü gösterir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Süreç modeli
Eğitim modülleri akış şemasını gösteren Şekil 3'e bakınız; veri seti ve yeraltı gerçeklik başlıkları önce yüklenmiştir. Veriler CNN kodlaması için normalleştirildikten sonra, ResNet modeli çıkarılmış özellikler kullanılarak başlatılır ve eğitilir. RNN ve sisteme özgü başlangıç ile son işaretleriyle etiketlenmiş kelimeler başlığı çözmek için kullanılabilir. Sistem, nihai kelime bulunursa çıkarmayı tamamlar ve N, aday başlığındaki toplam kelime sayısıdır.

Şekil 3: Eğitim modelinin akış şeması. Bu şekil, modelin eğitilmesiyle ilgili olan süreç adımı önişlemesi, özellik çıkarma, model öğrenimi ve optimizasyonu dahil olmak üzere ayrıntılı olarak ortaya koymaktadır. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

Test modelinin akış şeması Şekil 4'te gösterilmiştir; burada sistem önce kodlayıcı ve kodlayıcı modelleri yükler, ardından ResNet modeli ve giriş verilerini başlık çıkarımı için yükler. Eğer herhangi bir çözüm hatası olmadıysa, ilk kelimeden sonuna kadar çıkarım yapılabilir. Son kelimeye ulaştıktan sonra, çözülen kelimeler elde edilebilir ve kelimeleri anlamlı bir şekilde sıralı düzenlemek için dikkat mekanizması kullanılarak bir başlık oluşturulabilir. Eğitim modelinin ışın boyutu beş olup maksimum uzunluğu 20, parti boyutu ise 128 adet ve 20 dönemdir.

Şekil 4: Test modelinin akış şeması. Bu şekil, test iş akışını tasvir eder ve giriş görüntülerinin eğitilmiş model üzerinden nasıl işlendiğini, altyazılar oluşturulduğunu ve performansı değerlendirdiğini gösterir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.

ResNet-152 resim altyazı algoritması
Giriş ve çıkış parametrelerini başlatın, burada giriş, MSCOCO görüntüleri kümesi olarak alınır: I = (i₁, i₂, i₃, ....... i_N) J = (j₁, j₂, j₃, ......... j_N) ve çıktı altyazı olarak hesaplanır. İlk adımda giriş gereklidir, ardından görüntüler ön işlenir ve en-boy oranı şu şekilde boyutlandırılır.

Denklem 92 (44)

w ve h görüntünün orijinal genişliği ve yüksekliği, w_yeni ve h_yeni boyutların değiştirilmiş boyutlarıdır, T_s önceden tanımlanmış hedef boyut olarak kabul edilir (T_s = 224), max(w, h) ise en büyük boyutu tanımlar; bu boyut en-boy oranını korumak için ölçeklendirilmiştir.

Özellik çıkardıktan sonra, kimlik bloğunu şu şekilde bildirmek gerekir

Denklem 100 (45)

Sonra parti büyüklüğü, epoch sayısı, W'nin gizli katmanlar için ağırlık _olarakgizlendiği, çıktı katmanı için W çıkışı ve B_yüksekliği, Bönyargısı gibi parametreleri başlatın. Başlatma işlemi tamamlandıktan sonra, konvolüsyon katmanın çıktısını hesaplamak gerekir.

Denklem 101 (46)

Eğer b_l 1'e eşdeğerse, normal bir ReLU bloğu olarak kabul edilebilir. Ancak b_l 1'e eşit ya da 0'a eşdeğer değilse, o zaman öyle olur;

Denklem 102 (47)

Sonra hayatta kalma fizibilitesini şu şekilde hesaplayın

Denklem 103 (48)

Burada F_K sistemin hayatta kalma fizibilitesi olarak kabul edilir ve K modeldeki toplam blok sayısını temsil eder. Sonra olasılık dağılımını hesaplayın

Denklem 104 (49)

Olasılık dağılımı hesaplandıktan sonra, modeli geliştirerek ona erişir ve veriyi çözer.

Denklem 105 /9500

k₁, k₂, k₃, k₄, ......, k_t-1 gizli kod çözme durumlarıdır.

Modele erişirken, aday başlığı referans başlığı ile karşılaştıran dikkat mekanizmalarının uygulanması gerekir; nihai metrikler daha sonra BLEU, METEOR, CIDEr ve ROUGE kullanılarak değerlendirilebilir.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yazılım ve çevre özellikleri
Deneyler için kullanılan ana programlama dili Python 3.10'du. Geliştirme ortamını (VS Code) kurmak için Visual Studio Code kullanıldı. Bu araştırmada kullanılan önemli kütüphaneler arasında veri serializasyonu için Pickle, paralel işlem için çoklu işlem, dosya işleme için glob ve derin öğrenme modeli geliştirme için PyTorch yer almaktadır. Donanım yapılandırması 256 GB depolama alanı, 8 GB RAM ve daha hızlı hesaplama için CUDA desteğine sahip NVIDIA GTX serisi GPU içeriyor...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yapay zeka alanında, görsellere altyazı eklemek zor bir iştir. Resim altyazısı birçok çalışmaya konu olmuştur ve keskin veya hassas altyazı ise hâlâ en yüksek hassasiyet seviyesini gerektirir. Birçok makine öğrenimi tekniği görsel altyazı hedefini gerçekleştirmek için kullanılabilir ve CNN, RNN ve ResNet-152 gibi birçok çalışma yapılmıştır. Ancak, daha fazla hassasiyet ve kısaltılmış işlem süresi gereklidir. Önerilen sistem, kodlayıcı olarak CNN, kodlayıcı olarak RNN, kütüphane olarak To...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yazarlar, bu makalede bildirilen çalışmayı etkileyebilecek herhangi bir rekabet eden finansal çıkarları veya kişisel ilişkileri olmadığını belirtmektedir.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

MSCOCO veri setlerinin yaratıcılarını, bu çalışmada kullanılan kıyaslamaları sağladıkları için takdir ediyoruz. Yazarlar, bu çalışma için herhangi bir dış fon alınmadığını belirtmektedir.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
AMD Ryzen 5000 series	AMD	100-100000059WOF	AMD Ryzen 5000 Serisi, AMD tarafından geliştirilen, Zen 3 mimarisine dayanan yüksek performanslı işlemciler serisidir. Bu işlemciler, hem genel amaçlı hesaplama hem de veri işleme ve makine öğrenimi iş akışları gibi zorlu görevler için masaüstü ve dizüstü bilgisayarlarda yaygın olarak kullanılır.
GPU	NVIDIA	4.71933E+12	NVIDIA GeForce GTX, NVIDIA tarafından geliştirilen grafik işlemci birimleri (GPU'lar) serisidir, oyun oynamanın yanı sıra derin öğrenme ve görüntü işleme gibi genel amaçlı bilgi işlem görevleri için yaygın olarak kullanılır.
Intel Core i5	Intel	BX8071514400F	Intel Core i5, Intel tarafından geliştirilen orta sınıf bir işlemci serisidir, kişisel bilgisayarlarda hem genel amaçlı hem de hesaplamalı görevler için yaygın olarak kullanılır.
Python 3.10	Python Software Foundation	PEP 619	Python, bilimsel hesaplama, veri analizi ve makine öğreniminde yaygın olarak kullanılan, üst düzey, yorumlanmış bir programlama dilidir. Basitliği, okunabilirliği ve geniş kitaplık ekosistemi ile bilinir.
PyTorch	Facebook	26.03-py3	PyTorch, Meta Platforms (eskiden Facebook) tarafından geliştirilen açık kaynak derin öğrenme çerçevesidir, araştırma ve endüstride sinir ağları oluşturmak ve eğitmek için yaygın olarak kullanılır.
Visual Studio Code	Microsoft	None	Visual Studio Code (VS Code), Microsoft tarafından geliştirilen hafif, açık kaynak kod editörüdür. Makine öğrenimi ve derin öğrenme projeleri de dahil olmak üzere yazılım geliştirme için yaygın olarak kullanılır.
Windows 11	Microsoft	KB5083631	Windows 11, Microsoft tarafından geliştirilen, genel bilgi işleme ve yazılım geliştirme ve makine öğrenimi görevleri için yaygın olarak kullanılan bir işletim sistemidir.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Derin Öğrenme Yaklaşımları Kullanılarak Görsel Başlık Oluşturma

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles