Bu protokol, görüntü altyazısı için CNN'ler, RNN'ler ve ResNet'leri kullanır; görüntülerin faaliyetleri, insanları, nesneleri ve diğer öğelerin açıklamalarını çıkarır. BLEU, CIDEr, METEOR ve ROUGE metrik puanlarıyla haklı çıkarılmıştır.
Research Article
June 12th, 2026
Bu protokol, görüntü altyazısı için CNN'ler, RNN'ler ve ResNet'leri kullanır; görüntülerin faaliyetleri, insanları, nesneleri ve diğer öğelerin açıklamalarını çıkarır. BLEU, CIDEr, METEOR ve ROUGE metrik puanlarıyla haklı çıkarılmıştır.
Resim başlığı oluşturma, bir görseli içeren anlamlı bir metin açıklaması sunma çabasıdır. Çıkarılan bilgiler, görüntülerdeki faaliyetlerle ilgilidir. ResNet (Rezidual Network), görüntüleri sınıflandırma yeteneğiyle tanınır ve derin hiyerarşik temsiller geliştirmiştir. Bu makalenin amacı, ResNet'i çeşitli akıllı filtrelerle kullanarak görüntüleri daha derinlemesine sınıflandırmak, böylece referans başlıklarına göre son derece hassas gerçek ve anlamlı açıklamalar oluşturulmasını sağlamaktır. Burada çalışma, görüntüleri geliştirmek için akıllı bir filtreleme tekniği, özellikleri kodlamak için CNN, model eğitimi ve ardından özellikleri çözmek için bir RNN (Tekrarlayan Sinir Ağı) kullanıyor. ResNet, özellikle nesne sınıflandırması ve anlamsal analiz olmak üzere bilgisayar görüşü görevleri için çok etkili bir modeldir. ResNet, derin öğrenmede kritik bir sorun olan kaybolan gradyan problemini çözen atlayan bağlantılar olarak da bilinen kalıntı bağlantılarıyla iyi bilinir. Burada, MSCOCO (Microsoft Common Object in Context) kıyaslası modeli eğitmek için kullanılır; model, çeşitli bilgisayar görüşü görevleri için faydalı referans açıklamaları içeren büyük bir veri setidir. ResNet, özellikle çeşitli görseller için kullanışlı olan genelleme yeteneğini artırmaya yardımcı olur. Elde edilen sonuçlara göre, BLUE puanları B1: 0.579, B2: 0.404, B3: 0.279, B4: 0.191; METEOR: 0.195; ROUGE: 0.396; ve CIDEr: 0.6.
Bilgisayar görme ve doğal dil işleme alanlarında, görüntü altyazısı görüntünün ve onun temsil ettiği eylemlerin tanımını çıkaran kritik bir görevdir. Modelin amacı, görüntüleri anlamak ve bilgileri anlamlı cümlelere veya başlıklaraçevirmektir 1. Tüm süreç iki önemli aşamadan oluşur: ilki özellik çıkarımıdır, burada CNN modeli kullanılır; ikincisi ise RNN & kullanılarak görüntü açıklamasıdır; arada ise ResNet anlamsal analiz, dizi üretimi ve dikkat mekanizması için kullanılır. ResNet, şablon tabanlı yöntemler veya DenseNet tabanlı modüllerden çok farklıdır çünkü çalışma süresini azaltırken performansı artıran atlama bağlantılarını kullanır. Görsel altyazının birçok uygulaması vardır; bunlar arasında görme engelli bireylere yardımcı olmak, sosyal medya platformlarını güçlendirmek, görüntü tabanlı arama motorlarını optimize etmek, görsel tabanlı yapay zeka (yapay zeka) ve daha fazlasıvardır.
Bilgisayar görüşünde, sahne tanıma, bir plaj, şehir manzarası, orman veya ofis gibi görüntünün genel bağlamını veya ortamını tanımlama ve sınıflandırma sürecidir. Nesne tanıma, bireysel öğelere odaklanırken, sahne tanıma daha geniş bağlamı anlamak için dokuları, mekânsal düzenlemeleri ve nesne ilişkilerini dikkate alır. CNN'ler ve Vision Transformers kullanıyor; Places365 ve ImageNet gibi büyük veri setlerinde eğitilmiş derin öğrenme modelleri kullanılıyor. Uygulamalar arasında güvenlik gözetim, sürükleyici deneyimler için artırılmış ve sanal gerçeklik (AR ve VR), çevresel farkındalık için robotik ve navigasyon için otonom araçlar yer almaktadır. Gelişmelere rağmen, bakış açılarının değişmesi, tıkanmalar ve değişen aydınlatma gibi sorunlar, sahne tanıma, bilgisayar görme ve yapay zeka araştırmalarında güncel bir konu haline geliyor. Bilgisayar görüşündeki bir diğer temel sorun ise sahne tanımadır.
EnsCaption, çift üretken bir düşman ağ modeli, bir nesil getirme topluluktekniğini geliştirmek için önerildi 3. Bu düzen, mevcut hedeflerle uyumlu altyazılar oluşturan uyumlu, üreme tabanlı görsel altyazı yöntemlerini mümkün kılar. Geri alma tabanlı teknik, görüntü tabanlı sorguda diğerlerinden daha hassas bilgi çıkarmak için en iyi modeli seçmek için konum veya derecelendirme tabanlı bir model kullanır. Nesneler, aktiviteler ve sahneler gibi görsel bileşenler kullanılarak görüntülerin "anlam alanı" eşlenmesi getirildi ve bu bileşenler ilgili sözlü şablonlarlahizalandı 4. Görüntülerdeki korelasyonları ve nitelikleri kullanarak yaklaşım ifadeler oluşturur. Cümleler bilgiyi zengin, kısılmış ve ince bir şekilde ifade eder. Şablon tabanlı başlık üretimi, anlamsal anlayışı geliştirmek için sağduyu bilgisinin dahil edilmesiylegeliştirilmiştir 5. Bu teknik, şablonun erişimini doğrudan görüntü özelliklerinin ötesine çıkarılmış çağrışımları da kapsayarak genişletti. Bu çalışma, her annotasyonlu kategori için 16.000 sağduyu ifade çıkarmak amacıyla mevcut bir nesne algılama veri setini kullanmaktadır. Ayrıca, WordNet kullanılarak genelleştirme sağlandı ve daha önce görülmeyen nesneler hakkında çok sayıda gerçeklikalınmasını sağladı 6. Dikkat mekanizmaları, pekiştirici öğrenme taktikleri ve kodlayıcı-kodlayıcı çerçeveleri gibi konuları içeren görsel altyazı için derin öğrenme tekniklerinin organize bir taksonomisini inceleme sunar. Nesne halüsinasyonu ve bağlamsal kavrayım gibi konuları ele almanın yanı sıra, yaygın kullanılan veri setleri ve değerlendirme kriterlerini de inceler. Yazarlar, vizyon-dil ön eğitim tekniklerinin geliştirilmesi ve veri seti yanlılığını azaltmak gibi daha fazla çalışma alanı işaret ediyor. Görsel altyazı görevleri için konvolüsyon sinir ağları ve tekrarlayan sinir ağlarına dayalı bir anlamsal analiz yaklaşımıaraştırıldı 7. Resim altyazısı, bilgisayarların bir görseli kapsayan etkileyici ifadeler üretmesini sağlayan en bilinen kullanımlardan biridir. Yüksek seviyeli, anlamsal tanımlar sağlamak için bu prosedür sadece nesneleri ve sahneleri tanımlamayı gerektirmez; aynı zamanda durumlarını, özelliklerini ve etkileşimlerini incelemeyi de içerir. Görsel altyazı oluşturmanın karmaşıklığı ve zorluğuna rağmen, akademisyenler bu alanda etkileyici ilerlemeler kaydetmiştir. Bu çalışmada ele alınan üç ana derin sinir ağı tabanlı görsel altyazı tekniği, CNN-RNN tabanlı, CNN-CNN tabanlı ve güçlendirme öğrenme çerçeveleridir. Görsellerin tutarlı tanımlarını oluşturmak için bilgisayar görme ve doğal dil işleme entegrasyonu ile uçtan uca eğitilebilir bir modeltanıtıldı 8. Bir başlık oluşturmak için, bir LSTM'nin bir görüntüyü önceden eğitilmiş bir CNN özelliği vektör olarak kodladıktan sonra bir kelime dizisine dönüştürdüğü bir kodlayıcı-kodlayıcı çerçevesi kullanır. Karmaşık manzaralarla ilgili zorluklar gibi eksikliklerine rağmen, makalenin görme dili görevlerine katkısı yine de temelbir noktadır.
ResNet, önerilen çalışmanın görsel altyazı modelinde giriş görüntülerinden zengin görsel bilgi çıkarmak için kullanılan konvolüsyon sinir ağıdır (CNN). ResNet, genellikle kodlayıcı-çözücü mimarisinde kullanılan görüntüyü temsil eden bir özellik vektörü üretmek için bir kodlayıcı görevi görür. Kelime kelime tanımlayıcı başlıklar üreten çözücü, bu özellikleri alır ve genellikle LSTM veya GRU gibi tekrarlayan bir sinir ağı (RNN) kullanılarak uygulanır. Performansı artırmak için bir dikkat mekanizması eklenebilir; böylece kod çözücü her kelimeyi oluştururken görüntünün belirli bölgelerine odaklanabilir. Altyazı doğruluğunu maksimize etmek için, model çapraz entropi gibi bir kayıp fonksiyonu ve COCO gibi bir veri seti kullanılarak uçtan uca eğitilir. Transfer öğrenme ve ResNet ince ayarı, özellik çıkarımı geliştirerek modeli daha da güçlendirebilir ve geniş bir görsel yelpazesinde yüksek kaliteli, bağlama uygun altyazılar üretmesini sağlar. ResNet görsel altyazı alanda, derin sinir ağlarında yaygın bir sorun olan kaybu gradyan sorununu etkili bir şekilde ele aldığı için diğer modellere tercih edilir. Bu, geri yayılma sırasında gradyan akışını kolaylaştırmak için atlama bağlantıları kullanarak performanstan ödün vermeden önemli ölçüde daha derin ağları eğiten yenilikçi kalıntı öğrenme yaklaşımları sayesinde mümkün olur. Çok katmanlı perceptron, tamamen bağlantılı bir besleme ile, yönlendirilebilir katmanla ilişkilendirilir. RNN daha sonra softmax katmanını kullanarak altyazıları çözer ve aday altyazıları üretir. Aktivasyon fonksiyonu f(x), ileri kimlik fonksiyonu f(x) + x ve x kimlik olarak kabul edilir; bu Şekil 1'de gösterilmiştir. Bu durumda, sistem eğitim sırasında modeli kalibre etmek için kalıntı bloklar kullanır ve girdileri hem ağırlık bağlantılarından hem de atlama bağlantılarından geçer; bu bağlantılar kimlik kısayolları olarak da adlandırılır.

Şekil 1: Kalıntı bağlantı ağı. Bu şekil, kalıntı ağın mimarisini göstermekte, gradyan akışını iyileştiren ve derin ağ eğitimi sırasında kaybolan gradyanları azaltan atlama bağlantılarını vurguluyor. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Pl'nin çıktı olduğunu varsayalım; Ben hayır. kalıntı bloklardan; ReLU, 1'e yakınsa geleneksel bir blok olarak kabul edilir, ancak 1'e eşit değilse şu şekilde hesaplanabilir:
(1)
Burada, b rastgele değişken, k ise eşleme fonksiyonudur.
(2)
Burada sl , önerilen sistemin hayatta kalma olasılığı olarak kabul edilir;
(3)
Hayatta kalma olasılığı için ortaya çıkan kural şöyledir;
(4)
Burada SL hayatta kalma olasılığına ve L'nin toplam no'ya göre olduğu gibi. bloklardan.
Görsel altyazı, doğal dil işleme ve bilgisayar görüşünü birleştirerek resimler için betimleyici metin başlıkları üreten zorlu bir görevdir. Bunu yapmak için, bir görüntünün görsel içeriğini anlamalı, yorumlamalı ve bağlamında tutarlı cümlelere çevirmelidir. Bu alanda, model değerlendirmesi ve eğitimi için kapsamlı ve çeşitli veri setlerine sahip olmak çok önemlidir. Bu veri setleri, resim altyazı algoritmalarının geliştirilmesi ve test edilmesi için kritik olan çok çeşitli görsel ve ilgili açıklamalar sunar. En sık kullanılan veri setleri, milyonlarca görüntü içeren ve görüntü işlemede çeşitli zorluklar doğuran MSCOCO ve Flickr30k'dır. MSCOCO, Flickr30k11'den çok daha büyüktür. MS COCO veri seti şu setlere ayrılmıştır: eğitim için 82.783 görüntü, doğrulama için 40.504 ve test için 40.775.
Uygulama, ana model olan ResNet-152 ile yapılmış, CNN olarak bir Kodlayıcı, RNN olarak bir Kodlayıcı ve Materyal Tablosu'ndan kaynaklar ile yapılmıştır.
ResNet-152
ResNet, görsel altyazıda özellikleri daha verimli çıkarmanın bel kemiği olarak kabul edilir. ResNet, kaybolan gradyan sorununu ele alarak ve etkili şekilde çözerek diğer modellere göre daha iyi eğitim performansı sağladı. Çeşitli nesneler görsellerde görünebilir ve modelin daha iyi altyazı için onların ilişkilerini anlaması gerekir. Bu yüzden hiyerarşik bir özellik çıkarımı olarak kabul edilebilir. ResNet-152, karmaşık bilgisayar görme görevlerini üstlenebilir. Bu modelin temel avantajı, kalıcı veya atlama bağlantılarının etkili kullanımıdır. Kaybolan gradyan sorununu ele almada son derece etkilidir. Daha yüksek doğruluk sağlamak için karmaşık ve sağlam özellikleri öğrenebilir. ResNet-152, hesaplama maliyetini azaltan ve VGG-16 gibi diğer mimarilerden daha etkili hale getiren darboğaz tasarımını takip etti. Önden eğitilmiş modeller ve nesne algılama ile veri segmentasyonu gibi çeşitli görevler için uygun belirgin bir transfer öğrenme omurgasına sahiptir. Atlama bağlantısı antrenmanı hızlandırdı ve daha stabil hale getirdi. Transformatör tabanlı modele kıyasla, ardışık verileri anlamak için öz-dikkat mekanizması kullanan ResNet oldukça farklıdır. Transformator tabanlı bir model, metin verilerinin derinlemesine anlaşılması için büyük miktarda veri gerektirir; etkili sonuçlar verir ancak biraz daha yavaş çalışır. ResNet'i seçmenin motivasyonu, sonuçların önemli bir iyileşmesiyle uygulamayı hızlandıran atlama bağlantılarıdır. ResNet altyazı alanında, nesneyi ve görüntüde gerçekleştirilen eylemi temsil eden özellikleri çıkarmak için ResNet kullanılır. ResNet, atlama bağlantılarından yararlanan bir kalıntı ağ kullanıyordu. Burada, kalıntı blok, girdi Z referansıyla şu şekilde hesaplanabilir:
(5)
Burada Z, kalıntı bloğun girişi olarak kabul edilir.
parti normalizasyonu, konvolüsyon katmanlar ve ReLu aktivasyonunu içeren kalıntı bir fonksiyondur. {xi}, ilgili katmanların öğrenme ağırlığı olarak kabul edilir. Z ayrıca atlama bağlantı kimliğini tanımlar; bu da yok gradyanı sorununu çözer. ResNet genellikle görüntülerden görsel özellik eşlemesi için bir özellik çıkarıcı olarak kullanılır. Burada, I , özellik haritalarını yüksek görsel özellik temsili V'ye temsil etmek için giriş görüntüsü olarak kabul edilir.
(6)
Özellikler çıkarmadan önce, görüntü ön işlenmiş ve özellik çıkarımı iyileştirmelidir. MSCOCO kıyaslamasından toplanan ham bir görüntü olarak kabul edilir, bu yüzden ön işlemenin ilk adımı onu yeniden boyutlandırıp normalleştirmektir.
(7)
(8)
Burada Hl görüntünün yüksekliği, Wl ise görüntünün ağırlığıdır. Ben yenidenboyutlandırdığım görüntü olarak yeniden boyutlandırılıyor.
Piksel değerini [-1, 1] veya [0, 1] aralığından normalleştirmek için
(9)
Burada μ, pikselin ortalama değeri olarak kabul edilir σ referans edilen görüntünün standart sapması olarak kabul edilir. Normalize edilmiş görüntü artık özellik çıkarımı için daha fazla işlenir.
(10)
Burada
bu özellik vektörü olarak kabul edilir. Satır başlığı tokenize edildiğinde, sayısal formata dönüştürülür.
(11)
Eğer başlık kelimelere bölünürse
(12)
Burada, kelime dağarcığı önemli bir rol oynar; her kelime tam sayı tabanlı indeksleme ile benzersiz şekilde tanımlanır.
(13)
Burada Vc, bir kelime dağarcığı fonksiyonu olarak kabul edilir; Tüm dizilerin çift uzunlukta olduğundan emin olmak gerekir; yani maksimum yükseklik veya ideal uzunluk Lmax olarak kabul edilir.
(14)
Şimdi token olarak gömülüyor;
(15)
j = 1,2,3, ... .., Lmax için
Burada
K boyutlu gömülü bir vektör olarak kabul edilir; şimdi dekoder, olasılıksal modele dayalı aday altyazı üretimi için başlığı çözmek için kullanılır.
(16)
W j, j zaman damgasında bir eser, w1: j-1, zaman damgası j-1'de oluşturulan kelime ve ej-1, önceki wj-1 kelimesiyle gömülü özelliktir. Her zaman damgasında, bir sonraki kelime veya olasılık tahmin edilen ağ kelime üzerinde hesaplanır.
(17)
Burada wçıkış çıkış ağırlığı, bçıkış ise çıkış yanlılığıdır. Yani maksimum olasılık şu şekilde hesaplanır:
(18)
Aday başlığının maksimum uzunluğu, kelimesi alındığında veya ve gibi özel bir token olarak tanımlandığında hesaplanır. Beam araması ayrıca daha iyi aday başlığı seçmek için de faydalıdır, bu yüzden sıralama şöyledir:
(19)
(20)
Yani oluşturulan aday başlığı şu dizidir: 
Uzun Kısa Süreli Bellek genellikle dizi üretiminde kullanılır. LSTM, bir özellik çıkarıcı olarak CNN kullanır ve anlamlı cümleler oluşturmak için kelimeleri ardışık olarak üretir. LSTM, her zaman damgası T'de unut kapısını hesaplar.

ft forget gate, σ aktivasyon fonksiyonu, wf ağırlık ve bf yanlılık olarak kabul edilir,
yt giriş özellik vektörü olarak kabul edilirken, ht-1 gizli durum olarak kabul edilir.
(22)
(23)
Jt girdi olarak kabul edilir,
aday durum olarak kabul edilir, wj ve wc girdi ve aday durum için ağırlık olarak kabul edilir, bj ve bc veya yanlılık olarak kabul edilir.
(24)
Ct tüm durum olarak kabul edilir, Ct-1 önceki durum olarak kabul edilir.
(25)
Ot çıktı olarak kabul edilir, Wo ağırlık olarak ve bo önyargı olarak kabul edilir. Gizli ve hücre durumlarını başlatmak için aşağıdaki hesaplamalar gereklidir.
(26)
(27)
Hi ve Ci sırasıyla gizli ve hücre durumu olarak kabul edilirken, wh ve wc sırasıyla gizli ve yelken hücre durumu için ağırlıklardır, bc ve bh önyargı olarak kabul edilir, k ise özellik çıkarıcı olarak kabul edilir. Başlığın dizisi şu şekilde hesaplanır:
(28)
Burada T, oluşturulan başlığın uzunluğudur.
254 × 254 × 3, yeniden boyutlandırılmış veya önceden işlenmiş görüntüdür ve I giriş görüntüsü olarak kabul edilir.
(29)
W ve b ağırlık ve yanlılık olarak kabul edilirken, I giriş özellikleri olarak kabul edilir ve ReLU aktivasyon fonksiyonudur. Bu, konvolüsyon katmanın hesaplanmasıdır. Şimdi havuzlama katmanı şu şekilde hesaplanabilir:
(30)
Havuzlama katmanı tamamlandıktan sonra; Tam bağlı katman şu şekilde eşlenebilir:
(31)
Burada wf ve b f sırasıyla ağın ağırlık ve yanlılığı olarak kabul edilir.
(32)
(33)
Burada N, mekansal bölge, d ise özelliğin boyutu olarak kabul edilir.
(34)
(35)
W h ve bh sırasıyla gizli durumun ağırlık ve yanlılığı olarak kabul edilirken, wc ve bc sırasıyla hücre durumu ağırlıkı ve yanlılığı olarak kabul edilir. Başlık şu şekilde oluşturulabilir:
(36)
Kodlayıcı ve kodlayıcı
Önerilen sistem, CNN kullanarak makine çevirisi için verileri kodlar. Bu durumda, giriş ve çıkış ikisi de dizilidir, ancak uzunlukları farklılık gösterebilir. Makine her vektörü tek tek kodlar ve çözer. Bir vektör başlangıç noktası olarak kullanılarak, makine kodlama ve kod çözmeye başlar ve nihai koşullu olasılık dağılımına kadar hesaplamaya devam eder. Bir örnek şöyledir:
(37)
Bu, olasılık dağılımı olarak kabul edilir.
Sistem, veriyi vektör görüntüsü şeklinde kodlayabilir ve daha sonra çözülebilir. fcn (I), görüntü anlama için görüntü modeli olarak kabul edilir.
(38)
(39)
(40)
S1 , S0'ın sonraki yinelemesidir ve S2 , S1'in sonraki yinelemesidir. Her girişin önceki katmanın çıktısına bağlı olduğu söylenebilir. Görüntüler CNN tarafından vektörlere dönüştürülür ve tüm vektörleri geçen bir sonraki katmana gönderilir. Burada, RNN vektörleri kelimelere dönüştürdükten sonra kelimeleri anlamlı bir cümle haline sıralı olarak düzenlemek için bir dikkat mekanizması kullanılır.
(41)
Burada T, girişin uzunluğudur.
(42)
(43)
k1, k2, k3, k4, ......, kt-1 gizli kod çözme durumlarıdır.

Şekil 2: Kodlama ve çözme modeli. Bu şekil, görüntü başlığı için kullanılan kodlayıcı–kodlayıcı çerçevesini sunar ve görüntü özelliklerinin vektör temsillerine nasıl kodlandığını ve ardından ardışık metin açıklamalarına nasıl dönüştürüldüğünü gösterir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Süreç modeli
Eğitim modülleri akış şemasını gösteren Şekil 3'e bakınız; veri seti ve yeraltı gerçeklik başlıkları önce yüklenmiştir. Veriler CNN kodlaması için normalleştirildikten sonra, ResNet modeli çıkarılmış özellikler kullanılarak başlatılır ve eğitilir. RNN ve sisteme özgü başlangıç ile son işaretleriyle etiketlenmiş kelimeler başlığı çözmek için kullanılabilir. Sistem, nihai kelime bulunursa çıkarmayı tamamlar ve N, aday başlığındaki toplam kelime sayısıdır.

Şekil 3: Eğitim modelinin akış şeması. Bu şekil, modelin eğitilmesiyle ilgili olan süreç adımı önişlemesi, özellik çıkarma, model öğrenimi ve optimizasyonu dahil olmak üzere ayrıntılı olarak ortaya koymaktadır. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Test modelinin akış şeması Şekil 4'te gösterilmiştir; burada sistem önce kodlayıcı ve kodlayıcı modelleri yükler, ardından ResNet modeli ve giriş verilerini başlık çıkarımı için yükler. Eğer herhangi bir çözüm hatası olmadıysa, ilk kelimeden sonuna kadar çıkarım yapılabilir. Son kelimeye ulaştıktan sonra, çözülen kelimeler elde edilebilir ve kelimeleri anlamlı bir şekilde sıralı düzenlemek için dikkat mekanizması kullanılarak bir başlık oluşturulabilir. Eğitim modelinin ışın boyutu beş olup maksimum uzunluğu 20, parti boyutu ise 128 adet ve 20 dönemdir.

Şekil 4: Test modelinin akış şeması. Bu şekil, test iş akışını tasvir eder ve giriş görüntülerinin eğitilmiş model üzerinden nasıl işlendiğini, altyazılar oluşturulduğunu ve performansı değerlendirdiğini gösterir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
ResNet-152 resim altyazı algoritması
Giriş ve çıkış parametrelerini başlatın, burada giriş, MSCOCO görüntüleri kümesi olarak alınır: I = (i1, i2, i3, ....... iN) J = (j1, j2, j3, ......... jN) ve çıktı altyazı olarak hesaplanır. İlk adımda giriş gereklidir, ardından görüntüler ön işlenir ve en-boy oranı şu şekilde boyutlandırılır.
(44)
w ve h görüntünün orijinal genişliği ve yüksekliği, wyeni ve hyeni boyutların değiştirilmiş boyutlarıdır, Ts önceden tanımlanmış hedef boyut olarak kabul edilir (Ts = 224), max(w, h) ise en büyük boyutu tanımlar; bu boyut en-boy oranını korumak için ölçeklendirilmiştir.
Özellik çıkardıktan sonra, kimlik bloğunu şu şekilde bildirmek gerekir
(45)
Sonra parti büyüklüğü, epoch sayısı, W'nin gizli katmanlar için ağırlık olarak gizlendiği, çıktı katmanı için W çıkışı ve Byüksekliği, B önyargısı gibi parametreleri başlatın. Başlatma işlemi tamamlandıktan sonra, konvolüsyon katmanın çıktısını hesaplamak gerekir.
(46)
Eğer bl 1'e eşdeğerse, normal bir ReLU bloğu olarak kabul edilebilir. Ancak bl 1'e eşit ya da 0'a eşdeğer değilse, o zaman öyle olur;
(47)
Sonra hayatta kalma fizibilitesini şu şekilde hesaplayın
(48)
Burada FK sistemin hayatta kalma fizibilitesi olarak kabul edilir ve K modeldeki toplam blok sayısını temsil eder. Sonra olasılık dağılımını hesaplayın
(49)
Olasılık dağılımı hesaplandıktan sonra, modeli geliştirerek ona erişir ve veriyi çözer.
/9500
k1, k2, k3, k4, ......, kt-1 gizli kod çözme durumlarıdır.
Modele erişirken, aday başlığı referans başlığı ile karşılaştıran dikkat mekanizmalarının uygulanması gerekir; nihai metrikler daha sonra BLEU, METEOR, CIDEr ve ROUGE kullanılarak değerlendirilebilir.
Yazılım ve çevre özellikleri
Deneyler için kullanılan ana programlama dili Python 3.10'du. Geliştirme ortamını (VS Code) kurmak için Visual Studio Code kullanıldı. Bu araştırmada kullanılan önemli kütüphaneler arasında veri serializasyonu için Pickle, paralel işlem için çoklu işlem, dosya işleme için glob ve derin öğrenme modeli geliştirme için PyTorch yer almaktadır. Donanım yapılandırması 256 GB depolama alanı, 8 GB RAM ve daha hızlı hesaplama için CUDA desteğine sahip NVIDIA GTX serisi GPU içeriyordu. Deneyler için AMD Ryzen 5000 serisi işlemci veya Intel Core i5 işlemci çalıştıran bir bilgisayar kullanıldı. Uygulama için kullanılan işletim sistemi Windows 10/11'di. Tablo 1'deki çevre spesifikasyonları tablosundan kolayca anlaşılabilir.
| Materyal | Teknik özellikler |
| GPU | NVIDIA GTX serisi |
| Kütüphaneler | PyTorch, Turşu, Çok Programlama, Glob |
| Işletim sistemi | Windows 10/11 |
| İşlemci | Intel Core i5/AMD Ryzen 5000 serisi |
| Programlama | Python 3.10 |
| RAM | 8 GB |
| Yazılım | Visual Studio Code |
| Depolama | 256 GB |
Tablo 1: Çevre spesifikasyonları. Bu tablo, uygulamada kullanılan materyalleri ve programlama dilleri, kütüphaneler ve donanım spesifikasyonları gibi özellikleri özetler.
Nitel analiz
Modelin farklı kategorilere göre niteliksel analizine göre, örneğin dış ve kapalı sahneler ile basit ve karmaşık sahneler gibi, model görüntüyü tanımlamada biraz etkilidir. B1, B2, B3 ve B4 BLEU puanları olarak kabul edilir. C CIDEr olarak kabul edilir, M METEOR ve R ise ROUGE olarak kabul edilir. B1 0.579, B2 0.404, B3 0.279, B4 0.191, METEOR 0.195, ROUGE 0.396 ve CIDEr 0.6 olan her matris için, sonuç Tablo 2'de gösterildiği gibi 1 ile temsil edilir.
| Matrisler | MSCOCO Puanları |
| BLEU1 | 0.579 |
| BLEU2 | 0.404 |
| BLEU3 | 0.279 |
| BLEU4 | 0.191 |
| METEOR | 0.195 |
| ROUGE | 0.396 |
| CIDEr | 0.6 |
Tablo 2: Deneysel sonuçlar. Bu tablo, önerilen modelin performansını BLEU, METEOR, ROUGE ve CIDEr gibi değerlendirme metrikleri kullanılarak özetler ve başlık kalitesinin nicel bir değerlendirmesini sağlar.

Şekil 5: Deneysel sonuç. Bu şekil, değerlendirme metriklerinin grafiksel bir gösterimini sunar ve modelin farklı ölçümler arasındaki karşılaştırmalı performansını gösterir. Bu figürün daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Sonuç karşılaştırması Tablolar 3, 4 ve 5'te gösterilmiştir. Aşağıdaki referanslar Tablo 3, 3 ve 4:10,11,12,13,14'te listelenmiştir
| Yöntem | B1 | B2 | B3 | B4 |
| Face-CapF [10] | 0.5713 | 0.3651 | 0.2407 | 0.1652 |
| Face-Init [10] | 0.5663 | 0.3649 | 0.243 | 0.1686 |
| Face-CapL [11] | 0.589 | 0.3789 | 0.2507 | 0.1719 |
| Face-Step [10] | 0.5843 | 0.3756 | 0.2478 | 0.1696 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.6012 | 0.3992 | 0.2703 | 0.1921 |
| CNN+RNN+ResNet-152 (Önerilen) | 0.579 | 0.404 | 0.279 | 0.191 |
Tablo 3: BLEU Puanları için Sonuç Karşılaştırması. Bu tablo, farklı modeller veya yapılandırmalar arasında BLEU puan sonuçlarını karşılaştırarak başlık oluşturma doğruluğundaki iyileşmeleri vurgular.
Tablo 3 ve 4'te gösterildiği gibi, CSPDN-BiLSTM-SelfAtt12 B1 ve B4'te daha iyi performans gösterirken, CNN+RNN+ResNet-152 B2 ve B3'te daha iyi performans gösterir. CNN+RNN+ResNet-152, ROUGE yerine METER ve CIDEr'den daha iyidir. Yani her iki yöntem de BLEU puanlarında eşittir, ancak önerilen yöntem diğer iki metrikten daha iyidir. Yani sonuçtaki genel üstünlük, önerilen yöntemle sağlanır. Face-CapF10, Face-Init10, Face-CapL11, Face-Step10, FlickrFace11K veri setine dayalı resim altyazısı yapıyor. Ancak sonuçlar büyük bir veri seti için bile nispeten kötü. Önerilen modelin CIDEr puanı önemli ölçüde daha yüksek olsa da, bu tutarsızlık değerlendirme prosedüründe, veri seti hazırlığında ve uygulama özelliklerindeki farklılıklardan kaynaklanmaktadır.
| Yöntem | METEOR | CIDEr | ROUGE |
| Face-CapF [10] | 0.1719 | 0.2304 | 0.4476 |
| Face-Init [10] | 0.1717 | 0.2313 | 0.4484 |
| Face-CapL [11] | 0.1744 | 0.2472 | 0.4547 |
| Face-Step [10] | 0.1745 | 0.2283 | 0.4504 |
| CSPDN-BiLSTM-SelfAtt [12] | 0.1932 | 0.2617 | 0.4793 |
| CNN+RNN+ResNet-152 (Önerilen) | 0.195 | 0.6 | 0.396 |
Tablo 4: METEOR, CIDEr ve ROUGE ile ilgili Sonuç Karşılaştırması. Bu tablo, oluşturulan başlıkların anlamsal ve sözdizimsel kalitesini değerlendirmek için birden fazla değerlendirme metrikinin karşılaştırmalı analizini sunar.
| Yöntem | B1 | B2 | B3 | B4 | METEOR | ROUGE |
| Şablon-Artırma [13] | 0.238 | 0.109 | 0.05 | 0.022 | 0.096 | 0.249 |
| EfficientNetB0 [14] | 0.2827 | 0.1325 | 0.0588 | 0.0266 | 0.2661 | 0.3609 |
| EfficientNetB1 [14] | 0.289 | 0.1404 | 0.0642 | 0.0286 | 0.271 | 0.3718 |
| ResNet50 [14] | 0.2637 | 0.1217 | 0.0496 | 0.0207 | 0.2437 | 0.3423 |
| MobileNetV2 [14] | 0.2106 | 0.064 | 0.0215 | 0.009 | 0.1794 | 0.2606 |
| CNN+RNN+ResNet-152 (Önerilen) | 0.579 | 0.404 | 0.279 | 0.191 | 0.195 | 0.396 |
Tablo 5: BLEU, METEOR ve ROUGE puanları için Sonuç Karşılaştırması. Bu tablo, modelin genel etkinliğini göstermek için temel değerlendirme metriklerinin birleştirilmiş bir karşılaştırmasını sunmaktadır.
Tablo 5'e göre, EfficientNetB114 METEOR için daha iyi, ancak CNN+RNN+ResNet-152 B1-B 4 ve ROUGE için daha iyidir. Genel olarak, önerilen sonuç, bahsedilen yöntemlere kıyasla tüm BLEU ve ROUGE metriklerinde üstündür.
VERİ ERIŞILEBILIRLIĞI:
Bu çalışmaya ilişkin tüm ham veriler ve kodlama dosyaları ek dosyalarda mevcuttur.
Yapay zeka alanında, görsellere altyazı eklemek zor bir iştir. Resim altyazısı birçok çalışmaya konu olmuştur ve keskin veya hassas altyazı ise hâlâ en yüksek hassasiyet seviyesini gerektirir. Birçok makine öğrenimi tekniği görsel altyazı hedefini gerçekleştirmek için kullanılabilir ve CNN, RNN ve ResNet-152 gibi birçok çalışma yapılmıştır. Ancak, daha fazla hassasiyet ve kısaltılmış işlem süresi gereklidir. Önerilen sistem, kodlayıcı olarak CNN, kodlayıcı olarak RNN, kütüphane olarak Torch Vision ve birincil eğitim modeli olarak ResNet kullanılarak inşa edilmiştir. ResNet, katmanları kullanarak Face-CapF, Face-Init, Face-Step, Face-CapL, CSPDN-BiLSTM-SelfAtt, Template-Augmentation, EfficientNetB0, EfficientNetB1, MobileNetV2 ve daha birçok geleneksel modele kıyasla daha iyi performans elde etmek için atlama bağlantıtekniğini kullanır 10,11,12,13,14.
Önerilen çalışmada yer alan kritik adımlar, görüntüleri temizlemek için akıllı bir filtre kullanmak ve ardından tüm ana adımlarla özellik çıkarımı yapmaktır. Kesin özellik çıkarımı olmadan modelin amacına ulaşmak mümkün değildir ve sistem özellikleri doğru şekilde çıkaramazsa, metrik puanlarının doğruluğu etkilenir. Özellik vektörlerinin ve dikkat mekanizmasının derinlemesine analiziyle yürütülen eğitim aşaması, test verilerinin çözülmesinde hayati bir rol oynadı. Çalışmada bir başka kritik adım daha var: vokali güncellemek. Veri test edilirken yeni kelimeler ortaya çıktığında, bu kelimeler modelin performansını artırmak için sözlüğe eklenir. Bu kritik adımlar, daha önce önerilen modelden daha yüksek olan daha iyi doğruluk elde etmekte hayati bir rol oynadı; örneğin Şablon Artırma Yöntemi. Sistem, MSCOCO kıyaslaması için bir model eğitti ve resimlerin altyazısı için daha etkili bir model elde etti.
Test veri boyutu artarsa, görüntülerle ilgili yeni kelimeler oluşturulabilir. Ayrıca altyazı oluştururken önemsizlik yaratabilir ve ardından modelde kullanılan dikkat mekanizmasıyla ele alınabilir. Kelime dağarcığı, daha sonra değerlendirme için etkili olabilecek bir dikkat mekanizması aracılığıyla güncellenebilir. Bu, kendi kendine öğrenme veya istisna yönetimi olarak değerlendirilebilir. Model, binlerce gerçek dünya görüntüsünü içeren MSCOCO ile eğitildiğinden, her çıkarımda güncellenmesi gereken çok sayıda nesne ortaya çıkabilir.
Bu çalışmanın bir dezavantajı, eğitim için kullanılan çağdaş veri setlerine kıyasla, modelin görsel özellikler, kontrast ve doku farklılıkları nedeniyle özellikle siyah-beyaz veya düşük kaliteli tarihsel görüntülerde çok daha eski görüntülerde kötü performans gösterebilmesidir. Eğer görüntüler çözünürlükte zayıfsa, kesin özellikleri çıkarmak daha zor olur ve ResNet-152 bu durumda kodlama aşamasını bozabilir. Ayrıca çok fazla eski görüntüde kötü performans gösterir, bu da kötü veya hasarlı özellik vektörleri nedeniyle bu görüntülerin antik çağlardan kalma olduğu anlamına gelir. Sınırlamalar arasında tek veri seti değerlendirmesi ve çapraz doğrulama eksikliği yer alır.
Geleneksel yaklaşımlara kıyasla, önerilen model daha iyidir çünkü özellik çıkarımı artırır ve böylece resim başlığı üretimini iyileştirir. Akıllı filtreleme, özellik çıkarma veya kodlama aşamasını iyileştirir, bu da modeli daha iyi oluşturur. ResNet-152 ayrıca eğitim sırasında zaman kazandıran atlama bağlantılarını da kullanır. Yani, uygulama, EfficientNetB014 gibi diğer modellere göre çok daha hızlı. Dikkat mekanizması da modelin performansını artıran birincil faktördür.
Bu teknik, görüntü geri alma sistemlerinde, otomatik gözetimde ve görme engelli kişiler için yardımcı teknolojilerde kullanılabilir. Yapay zeka hızla ilerledikçe, görüntü alma sisteminin geliştirilmesi gereklidir ve bu teknik buna katkıda bulunabilir. Bu modelle, görme engelli bireyler dünyayı konuşmaya çevirerek görme konusunda yardım alabilirler. Görsel altyazının birkaç önemli ve potansiyel uygulaması vardır.
Yazarlar, bu makalede bildirilen çalışmayı etkileyebilecek herhangi bir rekabet eden finansal çıkarları veya kişisel ilişkileri olmadığını belirtmektedir.
MSCOCO veri setlerinin yaratıcılarını, bu çalışmada kullanılan kıyaslamaları sağladıkları için takdir ediyoruz. Yazarlar, bu çalışma için herhangi bir dış fon alınmadığını belirtmektedir.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| AMD Ryzen 5000 serisi | AMD | 100-100000059WOF | AMD Ryzen 5000 Serisi, AMD tarafından geliştirilen, Zen 3 mimarisine dayanan yüksek performanslı işlemciler serisidir. Bu işlemciler, hem genel amaçlı hesaplama hem de veri işleme ve makine öğrenimi iş akışları gibi zorlu görevler için masaüstü ve dizüstü bilgisayarlarda yaygın olarak kullanılmaktadır. |
| GPU | NVIDIA | 4.71933E+12 | NVIDIA GeForce GTX, NVIDIA tarafından geliştirilen, oyun ve derin öğrenme ile görüntü işleme gibi genel amaçlı hesaplama görevlerinde yaygın olarak kullanılan bir grafik işlemci (GPU) serisidir. |
| Intel Core i5 | Intel | BX8071514400F | Intel Core i5, Intel tarafından geliştirilen orta seviye bir işlemci serisidir ve hem genel amaçlı hem de hesaplamalı görevler için kişisel bilgisayarlarda yaygın olarak kullanılır. |
| Python 3.10 | Python Yazılım Vakfı | PEP 619 | Python, bilimsel hesaplama, veri analizi ve makine öğreniminde yaygın olarak kullanılan yüksek seviyeli, yorumlanan bir programlama dilidir. Basitliği, okunabilirliği ve geniş kütüphane ekosistemiyle tanınır. |
| PyTorch | 26.03-py3 | PyTorch, Meta Platforms (eski adıyla Facebook) tarafından geliştirilen, araştırma ve endüstride sinir ağları oluşturmak ve eğitmek için yaygın olarak kullanılan açık kaynaklı derin öğrenme çerçevesidir. | |
| Visual Studio Code | Microsoft | Hiçbiri yok | Visual Studio Code (VS Code), Microsoft tarafından geliştirilen hafif ve açık kaynaklı bir kod editörüdür. Yazılım geliştirmede, makine öğrenimi ve derin öğrenme projeleri dahil olmak üzere yaygın olarak kullanılır. |
| Windows 11 | Microsoft | KB5083631 | Windows 11, Microsoft tarafından geliştirilen ve genel bilişim ile yazılım geliştirme ile makine öğrenimi görevlerinde yaygın olarak kullanılan bir işletim sistemidir. |
Request permission to reuse the text or figures of this JoVE article
Request Permission